使用 PaddleOCR + 多进程 + GPU 加速实现 PDF 可搜索化（支持中英文、竖排/旋转文字）-酒店常州论坛

✅ 项目目标

将不可搜索的扫描版 PDF（图片型）通过 OCR 技术转换为可全文检索、可复制文字的 PDF 文件，同时保留原始排版，并支持：

中文、英文、符号混合识别
竖排文字、旋转文字正确还原
GPU 自动加速（若可用）
多核 CPU 并行处理提升效率
输出 PDF 体积小、兼容性好

📦 所需依赖

pipinstallpaddleocr PyMuPDF Pillow reportlab tqdm

注意：paddleocr会自动安装paddlepaddle。若要启用 GPU，请确保已安装 CUDA 并使用paddlepaddle-gpu。

📁 目录结构准备

在项目根目录下创建以下文件夹和文件：

your_project/ ├── ocr_pdf_gpu_multicore.py ← 主脚本（本文核心） ├── input_pdfs/ ← 放入待处理的 PDF ├── output_pdfs/ ← 输出结果 ├── pdf_pages/ ← 临时文件（自动创建） └── fonts/ └── PingFang-SC-Regular.ttf ← 中文字体（可替换为思源黑体等）

💡 字体建议：使用支持中文的 TTF 字体（如 PingFang、Microsoft YaHei、Noto Sans CJK）。若缺失，程序会降级使用 Helvetica。

🔧 核心配置说明（脚本开头）

INPUT_DIR="./input_pdfs"# 输入 PDF 文件夹OUTPUT_DIR="./output_pdfs"# 输出 PDF 文件夹TEMP_ROOT="./pdf_pages"# 临时图片/PDF 存放目录FONT_PATH_CN="./fonts/PingFang-SC-Regular.ttf"MAX_WORKERS=4# 多进程数量（建议 ≤ CPU 核心数）DPI=300# 渲染精度（越高越清晰，但更慢）KEEP_TEMP=False# 是否保留临时文件（调试时可设为 True）

🌟 技术亮点解析

1️⃣GPU 自动检测

defget_device():try:importpaddleifpaddle.is_compiled_with_cuda()andpaddle.device.cuda.device_count()>0:print("检测到 GPU，使用 GPU 加速")return"gpu"except:passprint("使用 CPU")return"cpu"

自动判断是否可用 GPU，无需手动切换。
实测：RTX 4060 上 OCR 速度提升 3~5 倍。

2️⃣PaddleOCR 高精度模型

ocr=PaddleOCR(text_detection_model_name="PP-OCRv5_server_det",text_recognition_model_name="PP-OCRv5_server_rec",device=DEVICE)

使用PP-OCRv5 服务端模型，对模糊、倾斜、低分辨率图像鲁棒性强。
支持竖排、弯曲、旋转文字检测。

3️⃣多进程并行处理每一页

将 PDF 拆分为 PNG 图片（fitz渲染，DPI=300）
使用ProcessPoolExecutor同时处理多页
每页独立生成带隐藏 OCR 文字的 PDF 页
最后合并为完整 PDF

⚡ 性能对比（100页 PDF，i7-13700H + RTX 4060）：
单进程：约 8 分钟
4 进程 + GPU：约 1.5 分钟

4️⃣智能文字排版还原

✅ 普通横排文字

自动计算字体大小、字符间距
文字透明（setFillAlpha(0)），仅用于搜索，不遮挡原图

✅ 竖排/旋转文字

defdraw_rotated_or_vertical_text(c,img_height,box,text,base_font_size=12):# 判断是否为竖排（75°~105°）或斜排# 使用 canvas.rotate() 精准还原方向# 竖排时逐字绘制，保持阅读顺序

完美支持古籍、日文、工程图纸等场景

▶️ 使用步骤

将待处理 PDF 放入./input_pdfs/
确保中文字体存在（或修改FONT_PATH_CN）
运行脚本：
```
python ocr_pdf_gpu_multicore.py
```

选择 PDF 序号（如输入1）
等待处理完成，结果在./output_pdfs/xxx_ocr.pdf

✅ 输出 PDF 特性：
可 Ctrl+F 搜索任意文字
可复制粘贴内容
原始图像完全保留
文件体积压缩（garbage=4, deflate=True）

🛠️ 常见问题解决

❌ “字体文件未找到”

下载 PingFang SC 或思源黑体
修改FONT_PATH_CN路径

❌ “CUDA error” 或 GPU 未启用

确认已安装paddlepaddle-gpu：

pip uninstall paddlepaddle pipinstallpaddlepaddle-gpu -f https://www.paddlepaddle.org.cn/whl/stable.html

❌ 处理大文件内存不足

降低DPI（如 200）
减少MAX_WORKERS（如 2）

📜 许可与扩展

本脚本基于 MIT 协议，可自由修改商用
可扩展功能：
- 批量处理所有 PDF（取消用户选择）
- 添加日志记录
- 支持 PDF 密码解密（fitz.open(password=...)）

💬 结语

通过PaddleOCR + ReportLab + PyMuPDF + 多进程的组合，我们实现了高性能、高精度的 PDF OCR 解决方案。无论是学术论文、历史档案还是工程图纸，都能一键转为可搜索格式！

GitHub 示例项目：欢迎 Star！https://github.com/mlb0925/PaddleOCR_PDF

觉得有用？点赞 + 关注，获取更多自动化办公技巧！👍

企业官网建设流程全解析

✅ 项目目标

📦 所需依赖

📁 目录结构准备

🔧 核心配置说明（脚本开头）

🌟 技术亮点解析

1️⃣GPU 自动检测

2️⃣PaddleOCR 高精度模型

3️⃣多进程并行处理每一页

4️⃣智能文字排版还原

✅ 普通横排文字

✅ 竖排/旋转文字

▶️ 使用步骤

🛠️ 常见问题解决

❌ “字体文件未找到”

❌ “CUDA error” 或 GPU 未启用

❌ 处理大文件内存不足

📜 许可与扩展

💬 结语

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

✅ 项目目标

📦 所需依赖

📁 目录结构准备

🔧 核心配置说明（脚本开头）

🌟 技术亮点解析

1️⃣GPU 自动检测

2️⃣PaddleOCR 高精度模型

3️⃣多进程并行处理每一页

4️⃣智能文字排版还原

✅ 普通横排文字

✅ 竖排/旋转文字

▶️ 使用步骤

🛠️ 常见问题解决

❌ “字体文件未找到”

❌ “CUDA error” 或 GPU 未启用

❌ 处理大文件内存不足

📜 许可与扩展

💬 结语

热门文章

文章分类

标签云

相关文章

需要专业的网站建设服务？