Python-PDF转为Word

时间 2019-11-20

标签 python pdf 转为 word 栏目 Python 繁體版

原文原文链接

手把手 | 20行Python代码教你批量将PDF转为Word

做者｜丁彦军python

给各位带来了一个免费简单快速的方法，手把手教你用Python批量处理PDF格式文件，获取本身想要的内容，存为word形式。学习

在实现PDF转Word功能以前，咱们须要一个python的编写和运行环境，同时安装好相关的依赖包。对于python环境，咱们推荐使用PyCharm。在本地电脑环境，anaconda提供了很是便利的安装和部署。编码

PDF转Word功能所需的依赖包以下：spa

PDFParser（文档分析器）对象
PDFDocument（文档对象）blog
PDFResourceManager（资源管理器）ip
PDFPageInterpreter（解释器）资源
PDFPageAggregator（聚合器）文档
LAParams（参数分析器）字符串

前期准备工做

说明：本文是在Windows7下使用python最新的3.6版本

1.安装pdfminer3k模块

安装anaconda后，直接能够经过pip安装

2.若安装不成功，能够试试下面方法

首先下载pdfminer3k：https://pypi.python.org/pypi/pdfminer3k；而后安装pdfminer，将下载好的pdfminer3k解压到D:或其余合适的盘符，经过win+r 打开运行窗口，输入cmd；输入D:切换到D盘，cd pdfminer3k(pdf解压的文件夹)，输入setup.py install安装软件。

最终显示Finished，则表明成功

代码实操

1.导入相关包

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator

总体思路为：构造文档对象，解析文档对象，提取所需内容

构造文档对象

构造解释器

2.导入须要解析的PDF文件

将所需解析的文件与执行代码放到同一个目录下，如图：

test.pdf内容

3.具体代码以下：

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

def parse:
#rb以二进制读模式打开本地pdf文件
fn = open('test.pdf','rb')
#建立一个pdf文档分析器
parser = PDFParser
#建立一个PDF文档
doc = PDFDocument
#链接分析器 与文档对象
parser.set_document
doc.set_parser

# 提供初始化密码doc.initialize("lianxipython")
# 若是没有密码 就建立一个空的字符串
doc.initialize("")
# 检测文档是否提供txt转换，不提供就忽略
if not doc.is_extractable:
raise PDFTextExtractionNotAllowed

else:
#建立PDf资源管理器
resource = PDFResourceManager
#建立一个PDF参数分析器
laparams = LAParams
#建立聚合器,用于读取文档的对象
device = PDFPageAggregator(resource,laparams=laparams)
#建立解释器，对文档编码，解释成Python可以识别的格式
interpreter = PDFPageInterpreter(resource,device)
# 循环遍历列表，每次处理一页的内容
# doc.get_pages 获取page列表
for page in doc.get_pages:
#利用解释器的process_page方法解析读取单独页数
interpreter.process_page(page)
#使用聚合器get_result方法获取内容
layout = device.get_result
#这里layout是一个LTPage对象,里面存放着这个page解析出的各类对象
for out in layout:
#判断是否含有get_text方法，获取咱们想要的文字
if hasattr(out,"get_text"):
print(out.get_text)
with open('test.txt','a') as f:
f.write(out.get_text+'\n')

if __name__ == '__main__':
parse

最终获得的test.txt结果以下：

结束

对于Python批量PDF转Word的操做介绍就到此，本文仅仅做为一种运用库展现代码编写过程，具体技术还须要有兴趣的朋友，与我一块儿讨论专研，互相学习进步。

本文为投稿做品，仅表明我的观点。