实用工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询中国历史 Excel函数模拟请求 json格式化

栏目分类:

子分类:

名师互学网

名师互学网用户登录

快速导航

当前搜索

当前分类

前沿技术软件开发系统运维产品运营生活办公面试经验考试题库

实用工具

学习工具小学数学练习字帖生成在线画板函数绘制拼音字母表在线词典黄历查询亲戚关系计算安全期计算中国历史 Excel函数模拟请求 json格式化浏览器指纹

名师互学网 > IT > 软件开发 > 后端开发 > Python

MPF(Bunch) 转换为 HDF5

Python 更新时间：2026-05-21 22:35:06 发布时间：1863天前 IT归档最新发布模块sitemap 名妆网法律咨询聚返吧英语巴士网伯小乐网商动力

更多细节参考我的博客：Bunch 转换为 HDF5 文件：高效存储 Cifar 等数据集

Feature

我首先将 python 获取 CASIA 脱机和在线手写汉字库（二）生成的 Bunch「Feature 数据」转换为 HDF5 文件。

载入 Bunch

因为该 Bunch 包含了 XFeature, Feature, Writer 这 3 个结构，所以我们还需要将它们载入：

import sys

sys.path.append('E:/xlab')
from base.xhw import json2bunch, XFeature, Feature, Writer


%%time
root = 'E:/OCR/CASIA/'

feature = json2bunch(f'{root}mpf/feature.json')

Wall time: 33.5 s

feature.HWDB10trn.writer001.keys()

dict_keys(['text', 'feature'])

转为 HDF5 文件
import numpy as np
import pandas as pd
import tables as tb

def mpf2tables(path, feature):
    filters = tb.Filters(complevel=7)
    with tb.open_file(path, 'w', title='手写单字特征', filters=filters) as h5:
 for setname in feature.keys():
     h5.create_group('/', setname, filters=filters)
     for writername in feature[setname].keys():
  h5.create_group(h5.root[setname], writername, filters=filters)
  X = feature[setname][writername]
  df = pd.Dataframe.from_dict(dict(X.feature))
  label = np.array([label.encode() for label in df.columns])
  h5.create_array(h5.root[setname][writername], 'label', label, title=X.text)
  h5.create_array(h5.root[setname][writername], 'feature', np.array(df).T, title=X.text)

%%time
path = f'{root}mpf/feature.h5'
mpf2tables(path, feature)

Wall time: 5min 29s

从本地载入 feature.h5
h5 = tb.open_file(path)

h5.root.HWDB10trn.writer001.feature.shape

(3728, 512)

我们可以看出数据集 HWDB10trn 的写手 writer001 所写的单字的特征信息为：

3728 个单字，每个单字 512 维。
下面我们编码单字的标签：
np.array([label.decode() for label in h5.root.HWDB10trn.writer001.label])

array(['扼', '遏', '鄂', ..., '娥', '恶', '厄'], dtype='

更多精彩见我的 GitHub：https://github.com/xinetzone/loader/blob/casia/casia/README.md




转载请注明：文章转载自 www.mshxw.com
本文地址：https://www.mshxw.com/it/222590.html


   上一篇  python装饰器
 
   下一篇  利用Python进行数据分析－NumPy基础




Python相关栏目本月热门文章

  1【Linux驱动开发】设备树详解（二）设备树语法详解
  2别跟客户扯细节
  3Springboot+RabbitMQ+ACK机制(生产方确认(全局、局部)、消费方确认)、知识盲区
  4【Java】对象处理流（ObjectOutputStream和ObjectInputStream）
  5【分页】常见两种SpringBoot项目中分页技巧
  6一文带你搞懂OAuth2.0
  7我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：虚拟机与Java虚拟机介绍
  8【Spring Cloud】新闻头条微服务项目：FreeMarker模板引擎实现文章静态页面生成
  9JavaSE - 封装、static成员和内部类
  10树莓派mjpg-streamer实现监控及拍照功能调试
  11用c++写一个蓝屏代码
  12从JDK8源码中看ArrayList和LinkedList的区别
  13idea 1、报错java: 找不到符号 符号: 变量 log 2、转换成Maven项目
  14在openwrt使用C语言增加ubus接口（包含C uci操作）
  15Spring 解决循环依赖
  16SpringMVC——基于MVC架构的Spring框架
  17Andy‘s First Dictionary C++ STL set应用
  18动态内存管理
  19我的创作纪念日
  20Docker自定义镜像-Dockerfile





热门相关搜索



路由器设置
木托盘
宝塔面板
儿童python教程
心情低落
朋友圈
vim
双一流学科
专升本
我的学校
日记学校
西点培训学校
汽修学校
情书
化妆学校
塔沟武校
异形模板
西南大学排名
最精辟人生短句
6步教你追回被骗的钱
南昌大学排名
清朝十二帝
北京印刷学院排名
北方工业大学排名
北京航空航天大学排名
首都经济贸易大学排名
中国传媒大学排名
首都师范大学排名
中国地质大学(北京)排名
北京信息科技大学排名
中央民族大学排名
北京舞蹈学院排名
北京电影学院排名
中国戏曲学院排名
河北政法职业学院排名
河北经贸大学排名
天津中德应用技术大学排名
天津医学高等专科学校排名
天津美术学院排名
天津音乐学院排名
天津工业大学排名
北京工业大学耿丹学院排名
北京警察学院排名
天津科技大学排名
北京邮电大学(宏福校区)排名
北京网络职业学院排名
北京大学医学部排名
河北科技大学排名
河北地质大学排名
河北体育学院排名







学习工具
代数计算器
三角函数
解析几何
立体几何


知识解答
教育知识
百科知识
生活知识
常识知识


写作必备
作文大全
作文素材
句子大全

实用范文


关于我们
关于我们
联系我们
网站地图


 
名师互学网交流群


名师互学网客服





名师互学网 版权所有 (c)2021-2022      ICP备案号：晋ICP备2021003244-6号
 






关于我们
文章归档
网站地图
联系我们
版权所有 (c)2021-2022 MSHXW.COM
ICP备案号：晋ICP备2021003244-6号