HDF5 (Hierarchical Data Format 5)
HDF5 (Hierarchical Data Format 5) — формат файла, предназначенный для хранения больших объёмов числовых данных в иерархической структуре. HDF5-файлы могут содержать многомерные массивы, метаданные и иерархические группы, что делает его стандартом для научных и инженерных вычислений.
MIME-тип
application/x-hdf5
Тип
Бинарный
Сжатие
Без потерь
Преимущества
- + Handles datasets from kilobytes to exabytes
- + Hierarchical structure organizes complex data
- + Built-in compression and chunked storage for performance
- + Parallel I/O support for HPC clusters
Недостатки
- − Complex API with a steep learning curve
- − Not suited for simple tabular data (use Parquet or CSV)
- − File corruption risk with concurrent writes without locks
Когда использовать .HDF5
Используйте HDF5 для научных данных, климатических моделей, геномных датасетов, тензоров машинного обучения и крупных числовых массивов, требующих частичного чтения.
Технические детали
Файлы HDF5 организуют данные в группы (каталоги) и датасеты (многомерные массивы). Датасеты поддерживают чанкование для частичного ввода-вывода, прозрачное сжатие (gzip, LZF, Szip) и вложенные составные типы данных. Файлы могут хранить от килобайт до петабайт в одном файле с произвольным доступом.
История
Национальный центр суперкомпьютерных приложений (NCSA) начал разработку HDF в 1987 году. HDF5 был выпущен в 1998 году с полностью переработанной архитектурой. Сейчас он поддерживается The HDF Group и используется NASA, CERN и ведущими исследовательскими институтами.