LOGO OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 开发文档 其他文档  
 
网站管理员

python第三方库PyMuPDF:如何提取pdf中表格数据

admin
2025年8月28日 1:48 本文热度 74

背景:

从PDF文件中提取表格都是一个老大难的问题。无论你使用的是PyPDF2还是其他什么第三方库,提取出来的表格都会变成纯文本,效果并不好。公司之前有很多的研报pdf解析,都是通过买的第三方服务来解析的,偶然间发现

python第三方库PyMuPDF1.23.8版本 已经支持提取PDF中的表格了。还可以把表格转换为Pandas的DataFrame供你分析。让我们赶紧安装使用下吧;


PyMuPDF的使用非常简单,首先我们来安装:

pip install pymupdf==1.23.0 pandas openpyxl

首先我们从网址上海清算所_研究与统计 (shclearing.com.cn)

https://www.shclearing.com.cn/sjtj/tjyb/ 下载债券期末托管的pdf,pdf中表格如下:

确定好解析文件后,让我们开始编写代码

import fitz

root_path = "./表四 债券期末托管情况2023-07-31.pdf"

doc = fitz.open(root_path)

page = doc[0] # 下标从0开始,第五页对应4

tables = page.find_tables()

df = tables[0].to_pandas()

print(df)

df.to_excel('table.xlsx', index=False)

保存table.xlsx 效果如下

下面我们将解析过程中的df数据转换成json列表,截个图吧,公众号的代码粘贴太丑:


阅读原文:原文链接


该文章在 2025/8/28 16:33:05 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2025 ClickSun All Rights Reserved