如何用实用脚本提取PDF中的文本？

wen 实用脚本 2026-06-17 1

如何用实用脚本提取PDF中的文本？高效自动化技巧全解析

目录导读

为什么需要脚本提取PDF文本？ – 传统手动复制痛点与自动化优势
主流PDF文本提取工具对比 – 开源/免费/付费方案选择指南
Python实用脚本实战 – 基于PyMuPDF、pdfminer.six的代码示例
命令行脚本技巧 – pdftotext、tabula-java等无编程方案
处理复杂PDF的进阶方法 – 扫描件OCR、表格提取、多语言支持
常见问题与解答 – 字符乱码、排版错乱、大文件崩溃的解决方案

为什么需要脚本提取PDF文本？

许多人在处理PDF文件时，习惯手动复制粘贴，但遇到以下情况时效率极低：

如何用实用脚本提取PDF中的文本？

数百页的合同、报告或学术论文；
包含复杂表格、特殊符号（如数学公式）的PDF；
需要批量转换数十个PDF文件；
扫描件PDF无法直接选中文字。

自动化脚本的核心价值在于：

批量处理：一次性转换多个文件，节省时间；
精确提取：保留原始排版与元数据（如页码、标题层级）；
可扩展性：根据需求定制输出格式（纯文本、Markdown、CSV）。

问答环节：
Q：直接复制PDF文本与脚本提取有何不同？
A：手动复制可能丢失分页符、连字符、特殊编码字符（如版权符号©），且无法处理加密或受保护的PDF，脚本可直接调用底层解析库,完整提取文本流。

主流PDF文本提取工具对比

工具类型	典型代表	适用场景	优缺点
Python库	PyMuPDF（fitz）	需要深度控制提取逻辑的程序员	速度快、支持扫描件OCR，但需安装依赖
命令行工具	pdftotext（Poppler套件）	快速转换单一或批量PDF	无GUI、输出纯净，但无法处理扫描件
在线服务	SmallPDF、 iLovePDF	一次性或小文件转换	便捷但存在隐私风险，限制文件大小
商用软件	Adobe Acrobat Pro	专业排版与复杂表单提取	功能全面但价格昂贵，许可证限制

推荐方案：对于技术用户，Python脚本+PyMuPDF是最佳平衡点；普通用户可选择pdftotext命令。

Python实用脚本实战

1 基础文本提取脚本（PyMuPDF）

import fitz  # PyMuPDF
def extract_text_from_pdf(pdf_path, output_txt):
    doc = fitz.open(pdf_path)
    text = ""
    for page_num, page in enumerate(doc):
        text += f"--- 第{page_num+1}页 ---\n"
        text += page.get_text("text")  # 返回纯文本
    with open(output_txt, "w", encoding="utf-8") as f:
        f.write(text)
    print(f"提取完成！输出至 {output_txt}")
# 使用示例
extract_text_from_pdf("sample.pdf", "output.txt")

说明：get_text("text")返回页面文本块，支持中英文，若需保留格式，可改用"html"或"dict"模式。

2 批量处理多个PDF

import os, glob
from concurrent.futures import ThreadPoolExecutor
def batch_extract(input_dir, output_dir):
    os.makedirs(output_dir, exist_ok=True)
    pdf_files = glob.glob(os.path.join(input_dir, "*.pdf"))
    with ThreadPoolExecutor(max_workers=4) as executor:
        for pdf in pdf_files:
            base_name = os.path.basename(pdf).replace(".pdf", ".txt")
            output_path = os.path.join(output_dir, base_name)
            executor.submit(extract_text_from_pdf, pdf, output_path)
batch_extract("./pdfs", "./texts")

优势：多线程处理,大幅缩短大文件转换时间。

3 使用pdfminer.six处理复杂排版

from pdfminer.high_level import extract_text
with open("complex.pdf", "rb") as f:
    text = extract_text(f, page_numbers=[0, 1, 2])  # 仅提取前三页
    print(text)

适用场景：当PDF包含多栏布局或层叠文本时,pdfminer比PyMuPDF更准确。

问答环节：
Q：提取的文本出现乱码或空白怎么办？
A：常见原因包括：字体未嵌入（需安装字体包）、加密PDF（需先解密）、扫描件（需OCR步骤），脚本中加入encoding="utf-8"确保解码正确。

命令行脚本技巧（无编程基础）

1 pdftotext（Linux/macOS/WSL用户）

安装：

sudo apt install poppler-utils  # Linux
brew install poppler              # macOS

使用：

pdftotext -layout report.pdf report.txt   # 保留原始布局
pdftotext -f 3 -l 5 report.pdf pages3-5.txt  # 提取第3-5页

参数：-r（分辨率，用于扫描件）、-nopgbrk（移除分页符）。

2 tabula-java（重点提取表格）

# 将PDF表格转CSV
java -jar tabula.jar -o tables.csv file.pdf -p 1-3 --csv

优势：自动识别表格边界,输出结构化数据。

3 跨平台GUI脚本（AutoHotkey for Windows）

#SingleInstance Force
^+t::  ; Ctrl+Shift+T 触发
{
    Send ^a  ; 全选PDF文本
    Sleep 100
    Send ^c  ; 复制
    Sleep 200
    Send ^n  ; 新建记事本
    Sleep 100
    Send ^v  ; 粘贴
    Sleep 50
    Send ^s  ; 保存
}

处理复杂PDF的进阶方法

1 扫描件OCR（配合Tesseract）

import pytesseract
from pdf2image import convert_from_path
images = convert_from_path("scanned.pdf", dpi=300)
text = ""
for img in images:
    text += pytesseract.image_to_string(img, lang='chi_sim+eng')  # 中英文
with open("scanned_output.txt", "w") as f:
    f.write(text)

注意：需先安装Tesseract OCR引擎与中文语言包。

2 保留表格结构

使用camelot-py库：

import camelot
tables = camelot.read_pdf("table.pdf", pages="all", flavor="stream")
tables.export("tables.csv", f="csv")

对比：camelot适合规则表格,tabula适合不规则表格。

3 多语言PDF（如日文、欧洲语言）

在PyMuPDF中指定语言字体：

doc = fitz.open("multi.pdf")
for page in doc:
    blocks = page.get_text("blocks")
    for b in blocks:
        # 过滤非文本块
        if b[-1] != 0:  # 0表示文本，1表示图像
            continue
        text += b[4]  # 文本内容

注意：若PDF字体缺失,可自动查找系统字体目录。

常见问题与解答

Q1：为什么我的脚本提取速度很慢？
A：大PDF文件（超过500页）建议使用PyMuPDF的incremental模式，或仅提取特定页面，扫描件OCR是最大瓶颈,可先降低dpi至200。

Q2：提取的文本排版混乱，如何修复？
A：使用-layout参数（pdftotext）或设置get_text("blocks")（PyMuPDF）按区块排序,再根据坐标重组段落。

Q3：PDF有密码保护怎么办？
A：部分库支持密码参数，如PyMuPDF：fitz.open(pdf, password="1234")，若密码未知，需先用破解工具（qpdf）去除保护。

Q4：脚本在Windows下报错缺少库？
A：建议使用虚拟环境（venv），并安装pywin32库解决Windows路径问题，对于pdftotext，需从Poppler for Windows下载二进制文件。

Q5：如何验证提取文本的准确性？
A：对比原始PDF和提取文本的行数/字数；对表格数据，使用difflib比较CSV与原始表的列匹配度，建议抽样检查10%的页面。

通过以上脚本与技巧，你可以根据PDF的实际复杂度选择最适合的方法，对于日常办公，pdftotext或Python基础脚本已足够；专业研究场景则推荐PyMuPDF+OCR组合。没有万能的提取工具,只有根据文件特性动态调整的提取策略。