做者|丁彦军python
给各位带来了一个免费简单快速的方法,手把手教你用Python批量处理PDF格式文件,获取本身想要的内容,存为word形式。学习
在实现PDF转Word功能以前,咱们须要一个python的编写和运行环境,同时安装好相关的依赖包。 对于python环境,咱们推荐使用PyCharm。 在本地电脑环境,anaconda提供了很是便利的安装和部署。编码
PDF转Word功能所需的依赖包以下:spa
PDFParser(文档分析器)对象
PDFDocument(文档对象)blog
PDFResourceManager(资源管理器)ip
PDFPageInterpreter(解释器)资源
PDFPageAggregator(聚合器)文档
LAParams(参数分析器)字符串
前期准备工做
说明:本文是在Windows7下使用python最新的3.6版本
1.安装pdfminer3k模块
安装anaconda后,直接能够经过pip安装
2.若安装不成功,能够试试下面方法
首先下载pdfminer3k:https://pypi.python.org/pypi/pdfminer3k;而后安装pdfminer,将下载好的pdfminer3k解压到D:或其余合适的盘符,经过win+r 打开运行窗口,输入cmd;输入D:切换到D盘,cd pdfminer3k(pdf解压的文件夹),输入setup.py install安装软件。
最终显示Finished,则表明成功
代码实操
1.导入相关包
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.layout import LAParams
from pdfminer.converter import PDFPageAggregator
总体思路为:构造文档对象,解析文档对象,提取所需内容
构造文档对象
构造解释器
2.导入须要解析的PDF文件
将所需解析的文件与执行代码放到同一个目录下,如图:
test.pdf内容
3.具体代码以下:
from pdfminer.pdfparser import PDFParser, PDFDocument from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter from pdfminer.layout import LAParams from pdfminer.converter import PDFPageAggregator from pdfminer.pdfinterp import PDFTextExtractionNotAllowed def parse: #rb以二进制读模式打开本地pdf文件 fn = open('test.pdf','rb') #建立一个pdf文档分析器 parser = PDFParser #建立一个PDF文档 doc = PDFDocument #链接分析器 与文档对象 parser.set_document doc.set_parser # 提供初始化密码doc.initialize("lianxipython") # 若是没有密码 就建立一个空的字符串 doc.initialize("") # 检测文档是否提供txt转换,不提供就忽略 if not doc.is_extractable: raise PDFTextExtractionNotAllowed else: #建立PDf资源管理器 resource = PDFResourceManager #建立一个PDF参数分析器 laparams = LAParams #建立聚合器,用于读取文档的对象 device = PDFPageAggregator(resource,laparams=laparams) #建立解释器,对文档编码,解释成Python可以识别的格式 interpreter = PDFPageInterpreter(resource,device) # 循环遍历列表,每次处理一页的内容 # doc.get_pages 获取page列表 for page in doc.get_pages: #利用解释器的process_page方法解析读取单独页数 interpreter.process_page(page) #使用聚合器get_result方法获取内容 layout = device.get_result #这里layout是一个LTPage对象,里面存放着这个page解析出的各类对象 for out in layout: #判断是否含有get_text方法,获取咱们想要的文字 if hasattr(out,"get_text"): print(out.get_text) with open('test.txt','a') as f: f.write(out.get_text+'\n') if __name__ == '__main__': parse
最终获得的test.txt结果以下:
结束
对于Python批量PDF转Word的操做介绍就到此,本文仅仅做为一种运用库展现代码编写过程,具体技术还须要有兴趣的朋友,与我一块儿讨论专研,互相学习进步。
本文为投稿做品,仅表明我的观点。