HDF5, 大量(海量?)数据存储的一种解决方案. HDF的全称是Hiearchical Data Format, 5是版本号(未考证过TODO). 一个HDF5文件操作起来就像一个独立的文件系统. (TODO, I/O特性, 是事件驱动的吗?)

import h5py
import numpy as np

创建一个HDF5文件

f = h5py.File("/home/dengdan/temp/no-use/hdftest.hdf5", "w")

它可以存储两类数据对象:

dataset, 类比于文件系统的文件, 可以用操作list/ndarray的方式来操作它
group, 类比于文件系统的文件夹. , 可以用操作dict的方式来操作它

dataset

dset = f.create_dataset(name = "/mydataset1", shape = (100,100), dtype= np.uint8)
print dset.shape

(100, 100)

print dset.dtype
print dset[:]

uint8
[[0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 ..., 
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]
 [0 0 0 ..., 0 0 0]]

hdf5以POISX文件系统的风格存储数据对象, 每个对象都有自己的名字, 格式与linux文件路径相同

print dset.name

/mydataset1

group

grp = f.create_group("subgroup")

print grp.name

/subgroup

dset2 = grp.create_dataset("another_ds", (50,), dtype='f')
print dset2.name

/subgroup/another_ds

创建dataset时若指定了上级group, 会自动创建

dset3 = f.create_dataset('subgroup2/dataset_three', (10,), dtype='i')
print dset3.name

/subgroup2/dataset_three

整个hdf文件就像一个大字典,读取dataset时可以根据它的name从中直接取出.

dset3_read = f['subgroup2/dataset_three']
dset3 == dset3_read

True

for name in f:
    print name
    # 只会显示根目录下的对象.

mydataset1
subgroup
subgroup2

def visit_file(name):
    print name
f.visit(visit_file) 
    # 显示所有对象.

mydataset1
subgroup
subgroup/another_ds
subgroup2
subgroup2/dataset_three

dataset.attrs

dataset对象可以有自己的属性, 但所有属性数据的长度加起来不能超过64K, 包括属性名字.

dset.attrs['length'] = 100
dset.attrs['name'] = 'This is a dataset'

for attr in dset.attrs:
    print attr, ":", dset.attrs[attr]

length : 100
name : This is a dataset

# Reference
* http://docs.h5py.org/en/latest/quick.html

markdown由jupyter notebook生成, note book

HDF5基本使用方法

创建一个HDF5文件

dataset

group

dataset.attrs

为什么品牌logo花大钱做微调？

「Linux学习」之简单的创建用户脚本

最新文章

三星电视有望支持Color Booster Pro 商标正在申请中

高铁票怎么看车厢号和座位号

不甚是什么意思(不甚的意思)

海鲜菇怎么做汤

二两是多少克(二三两是多少克)

豆腐煮几分钟熟豆腐煮多久才能熟

什么是克隆技术（为什么无法克隆顶级科学家？）

科普下氧化钙与二氧化硫化学反应式及实验现象

发面发酸了怎么办

大熊猫为什么是黑白色(熊猫是白色还是黑色)

标签

热评文章

Adobe Photoshop Elements 技术专题简介

ImageMagick 技术专题简介

瓦伦蒂娜·赞亚娃技术专题简介

安卓远程安装apk（安卓远程安装）

linux svn使用教程（linux svn使用）

HDF5基本使用方法

创建一个HDF5文件

dataset

group

dataset.attrs

为什么品牌logo花大钱做微调？

「Linux学习」之简单的创建用户脚本

最新文章

三星电视有望支持Color Booster Pro 商标正在申请中

标签

热评文章

Adobe Photoshop Elements 技术专题简介

ImageMagick 技术专题简介

瓦伦蒂娜·赞亚娃 技术专题简介

安卓远程安装apk（安卓远程安装）

linux svn使用教程（linux svn使用）

关注我们的公众号

瓦伦蒂娜·赞亚娃技术专题简介