Python 用三行代码提取PDF表格数据

从 PDF 表格中获取数据是一项痛苦的工作。不久前，一位开发者提供了一个名为 Camelot 的工具，使用三行代码就能从 PDF 文件中提取表格数据。

PDF 文件是一种非常常用的文件格式，通常用于正式的电子版文件。它能够很好的将不同的排版格式固定下来，形成版面清晰且美观的展示效果。然而，对于想要从 PDF 中提取信息的人们来说，PDF 是个噩梦，尤其是表格。

大量的学术报告、论文、分析文章都使用 PDF 展示其中的表格数据，但是对于如果想要直接从表格中复制数据则会非常麻烦。不久前，有一位开发者提供了一个可从文字 PDF 中提取表格信息的工具——Camelot，能够直接将大部分表格转换为 Pandas 的 Dataframe。

项目地址：https://github.com/camelot-dev/camelot

Camelot 是什么

据项目介绍称，Camelot 是一个 Python 工具，用于将 PDF 文件中的表格数据提取出来。

具体而言，用户可以像使用 Pandas 那样打开 PDF 文件，然后利用这个工具提取表格数据，最后再指定输出的形式（如 csv 文件）。

代码示例

项目提供的 PDF 文件如图所示，假设用户需要提取这些文字之间的表格 2-1 中的信息。

PDF 文件。我们需要提取表格 2-1。

使用 Camelot 提取表格数据的代码如下：

>>> import camelot
>>> tables = camelot.read_pdf('foo.pdf') #类似于Pandas打开CSV文件的形式
>>> tables[0].df # get a pandas Dataframe!
>>> tables.export('foo.csv', f='csv', compress=True) # json, excel, html, sqlite，可指定输出格式
>>> tables[0].to_csv('foo.csv') # to_json, to_excel, to_html, to_sqlite， 导出数据为文件
>>> tables

>>> tables[0]
 # 获得输出的格式
>>> tables[0].parsing_report
{
 'accuracy': 99.02,
 'whitespace': 12.24,
 'order': 1,
 'page': 1
}

以下为输出的结果，对于合并的单元格，Camelot 在抽取后做了空行处理，这是一个稳妥的方法。
安装方法
项目作者提供了三种安装方法。首先，你可以使用 Conda 进行安装，这是最简单的。
conda install -c conda-forge camelot-py
最流行的安装方法是使用 pip 安装。
pip install camelot-py[cv]
还可以从项目中克隆代码，并使用源码安装。
git clone https://www.github.com/camelot-dev/camelot
cd camelot
pip install ".[cv]"
以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持考高分网。

转载请注明：文章转载自 www.mshxw.com
本文地址：https://www.mshxw.com/it/23654.html

   上一篇  python获取全国城市pm2.5、臭氧等空气质量过程解析
 
   下一篇  深入浅析Python科学计算库Scipy及安装步骤
  



Python相关栏目本月热门文章

  1【Linux驱动开发】设备树详解（二）设备树语法详解
  2别跟客户扯细节
  3Springboot+RabbitMQ+ACK机制(生产方确认(全局、局部)、消费方确认)、知识盲区
  4【Java】对象处理流（ObjectOutputStream和ObjectInputStream）
  5【分页】常见两种SpringBoot项目中分页技巧
  6一文带你搞懂OAuth2.0
  7我要写整个中文互联网界最牛逼的JVM系列教程 | 「JVM与Java体系架构」章节：虚拟机与Java虚拟机介绍
  8【Spring Cloud】新闻头条微服务项目：FreeMarker模板引擎实现文章静态页面生成
  9JavaSE - 封装、static成员和内部类
  10树莓派mjpg-streamer实现监控及拍照功能调试
  11用c++写一个蓝屏代码
  12从JDK8源码中看ArrayList和LinkedList的区别
  13idea 1、报错java: 找不到符号 符号: 变量 log 2、转换成Maven项目
  14在openwrt使用C语言增加ubus接口（包含C uci操作）
  15Spring 解决循环依赖
  16SpringMVC——基于MVC架构的Spring框架
  17Andy‘s First Dictionary C++ STL set应用
  18动态内存管理
  19我的创作纪念日
  20Docker自定义镜像-Dockerfile




热门相关搜索



路由器设置
木托盘
宝塔面板
儿童python教程
心情低落
朋友圈
vim
双一流学科
专升本
我的学校
日记学校
西点培训学校
汽修学校
情书
化妆学校
塔沟武校
异形模板
西南大学排名
最精辟人生短句
6步教你追回被骗的钱
南昌大学排名
清朝十二帝
北京印刷学院排名
北方工业大学排名
北京航空航天大学排名
首都经济贸易大学排名
中国传媒大学排名
首都师范大学排名
中国地质大学(北京)排名
北京信息科技大学排名
中央民族大学排名
北京舞蹈学院排名
北京电影学院排名
中国戏曲学院排名
河北政法职业学院排名
河北经贸大学排名
天津中德应用技术大学排名
天津医学高等专科学校排名
天津美术学院排名
天津音乐学院排名
天津工业大学排名
北京工业大学耿丹学院排名
北京警察学院排名
天津科技大学排名
北京邮电大学(宏福校区)排名
北京网络职业学院排名
北京大学医学部排名
河北科技大学排名
河北地质大学排名
河北体育学院排名






学习工具
代数计算器
三角函数
解析几何
立体几何


知识解答
教育知识
百科知识
生活知识
常识知识


写作必备
作文大全
作文素材
句子大全

实用范文


关于我们
关于我们
联系我们
网站地图


 
名师互学网交流群


名师互学网客服





名师互学网 版权所有 (c)2021-2022      ICP备案号：晋ICP备2021003244-6号
 




关于我们
文章归档
网站地图
联系我们
版权所有 (c)2021-2022 MSHXW.COM
ICP备案号：晋ICP备2021003244-6号