在快节奏的职场生活中,我们经常会遇到需要从PDF文件中提取表格数据并整理到Excel中的情况。这不仅耗时耗力,而且容易出错。今天,我要为大家介绍一款由我们社区群技术大佬开发的PDF表格提取器,它能够让你轻松一键将PDF中的所有表格信息汇总到一个Excel工作簿中,极大地提升你的工作效率。
下载地址:
pdf2exl链接: https://pan.baidu.com/s/1JC2bNZYl_LRojhA0uAPLqw?pwd=2ghg 提取码: 2ghg
工具介绍
这款PDF表格提取器,通过直观的图形用户界面(GUI),让你可以轻松地选择PDF文件,一键提取所有表格到Excel文件。它支持多种PDF格式,并且可以处理包含复杂表格的文档。
功能亮点
使用步骤
选择PDF文件:浏览并选择包含需要提取表格的PDF文件。
开始提取:点击开始按钮,工具将自动提取所有表格到Excel文件。
查看日志:在操作过程中,你可以通过日志窗口实时查看处理详情。
核心代码
import os
import threading
import tkinter as tk
from tkinter import ttk, filedialog, messagebox
from tkinter.scrolledtext import ScrolledText
import tabula
from openpyxl import Workbook
class TabulaExtractor(tk.Tk):
def __init__(self):
super().__init__()
self.title("PDF 表格提取器 (Tabula)")
self.geometry("640x480")
self.resizable(False, False)
self.pdf_path = tk.StringVar()
self.xlsx_path = tk.StringVar()
self.build_ui()
self.xlsx_path.set(os.path.join(os.getcwd(), "提取结果.xlsx"))
def build_ui(self):
style = ttk.Style(self)
style.theme_use("clam")
ttk.Label(self, text="PDF → Excel 表格提取器", foreground="#0078D4",
font=("Microsoft YaHei", 16, "bold")).pack(pady=12)
frm = ttk.Frame(self)
frm.pack(fill="x", padx=15, pady=6)
ttk.Label(frm, text="PDF 文件:").grid(row=0, column=0, sticky="e")
ttk.Entry(frm, textvariable=self.pdf_path,
width=50).grid(row=0, column=1)
ttk.Button(frm, text="📂", width=3, command=self.browse_pdf).grid(
row=0, column=2, padx=4)
ttk.Label(frm, text="输出 Excel:").grid(row=1, column=0, sticky="e")
ttk.Entry(frm, textvariable=self.xlsx_path,
width=50).grid(row=1, column=1)
ttk.Button(frm, text="📂", width=3, command=self.browse_xlsx).grid(
row=1, column=2, padx=4)
ctl = ttk.Frame(self)
ctl.pack(fill="x", padx=15, pady=8)
self.progress = ttk.Progressbar(ctl, length=320, mode="determinate")
self.progress.pack(side="left", padx=5)
ttk.Button(ctl, text="🚀 开始提取", command=self.start_thread).pack(
side="left", padx=10)
self.stat_lbl = ttk.Label(ctl, text="就绪")
self.stat_lbl.pack(side="left")
log_frame = ttk.LabelFrame(self, text="实时日志", padding=5)
log_frame.pack(fill="both", expand=True, padx=15, pady=6)
self.log_text = ScrolledText(
log_frame, height=10, state="disabled", font=("Consolas", 9))
self.log_text.pack(fill="both", expand=True)
def browse_pdf(self):
f = filedialog.askopenfilename(filetypes=[("PDF文件", "*.pdf")])
if f:
self.pdf_path.set(f)
if not self.xlsx_path.get():
self.xlsx_path.set(os.path.splitext(f)[0] + ".xlsx")
def browse_xlsx(self):
f = filedialog.asksaveasfilename(defaultextension=".xlsx",
filetypes=[("Excel文件", "*.xlsx")])
if f:
self.xlsx_path.set(f)
def start_thread(self):
if not self.pdf_path.get():
messagebox.showerror("错误", "请选择 PDF 文件")
return
self.progress["value"] = 0
threading.Thread(target=self.extract, daemon=True).start()
def log(self, msg):
self.log_text.config(state="normal")
self.log_text.insert("end", msg + "\n")
self.log_text.see("end")
self.log_text.config(state="disabled")
def extract(self):
pdf = self.pdf_path.get()
xlsx = self.xlsx_path.get()
self.log("正在读取 PDF 表格...")
dfs = tabula.read_pdf(
pdf, pages="all", multiple_tables=True)
if not dfs:
messagebox.showinfo("提示", "未检测到表格")
return
wb = Workbook()
for idx, df in enumerate(dfs, 1):
ws = wb.create_sheet(title=f"表{idx}")
for row in df.values.tolist():
ws.append(row)
del wb["Sheet"]
wb.save(xlsx)
self.log(f"✅ 已保存 {len(dfs)} 张表到 {xlsx}")
self.stat_lbl["text"] = "完成!"
messagebox.showinfo("完成", f"已提取 {len(dfs)} 张表到\n{xlsx}")
if __name__ == "__main__":
TabulaExtractor().mainloop()
结语
在这个信息爆炸的时代,掌握一些自动化办公工具,无疑能够让我们的工作更加高效。PDF表格提取器就是这样一款能够提升我们工作效率的秘密武器。
阅读原文:https://mp.weixin.qq.com/s/3jn1ocD6W0hk3rhCpxi3dw
该文章在 2025/8/28 16:28:59 编辑过