数据分析遇到PDF文本，怎么用Python批量提取内容

时间 2019-12-10

标签数据分析遇到 pdf 文本怎么 python 批量提取内容栏目 Python 繁體版

原文原文链接

本文为你展现，如何用Python把许多PDF文件的文本内容批量提取出来，而且整理存储到数据框中，以便于后续的数据分析。python

问题

最近，读者们在后台的留言，愈发五花八门了。git

写了几篇关于天然语言处理的文章后，一种呼声渐强：github

pdf中的文本内容，有没有什么方便的方法提取出来呢？web

我能体会到读者的心情。面试

我展现的例子中，文本数据都是直接能够读入数据框工具作处理的。它们可能来自开放数据集合、网站API，或者爬虫。编程

可是，有的时候，你会遇到须要处理指定格式数据的问题。安全

例如pdf。网络

许多的学术论文、研究报告，甚至是资料分享，都采用这种格式发布。数据结构

这时候，已经掌握了诸多天然语言分析工具的你，会很有“拔剑四顾心茫然”的感受——明明知道如何处理其中的文本信息，但就是隔着一个格式转换的问题，作不来。app

怎么办？

办法天然是有的，例如专用工具、在线转换服务网站，甚至还能够手动复制粘贴嘛。

可是，我们是看重效率的，对不对？

上述办法，有的须要在网上传输大量内容，花费时间较多，并且可能带来安全和隐私问题；有的须要专门花钱购买；有的干脆就不现实。

怎么办？

好消息是，Python就能够帮助你高效、快速地批量提取pdf文本内容，并且和数据整理分析工具无缝衔接，为你后续的分析处理作好基础服务工做。

数据

为了更好地说明流程，我为你准备好了一个压缩包。

里面包括本教程的代码，以及咱们要用到的数据。

请你到这个网址下载本教程配套的压缩包。

下载后解压，你会在生成的目录（下称“演示目录”）里面看到如下内容。

演示目录里面包含：

Pipfile: pipenv 配置文件，用来准备我们变成须要用到的依赖包。后文会讲解使用方法；
pdf_extractor.py: 利用pdfminer.six编写的辅助函数。有了它你就能够直接调用pdfminer提供的pdf文本内容抽取功能，而没必要考虑一大堆恼人的参数；
demo.ipynb: 已经为你写好的本教程 Python 源代码（Jupyter Notebook格式）。

另外，演示目录中还包括了2个文件夹。

这两个文件夹里面，都是中文pdf文件，用来给你展现pdf内容抽取。

pdf文件夹内容以下：

newpdf文件夹内容以下：

代码

首先，咱们读入一些模块，以进行文件操做。

import glob
import os

前文提到过，演示目录下，有两个文件夹，分别是pdf和newpdf。

咱们指定 pdf 文件所在路径为其中的pdf文件夹。

pdf_path = "pdf/"

咱们但愿得到全部 pdf 文件的路径。用glob，一条命令就能完成这个功能。

pdfs = glob.glob("{}/*.pdf".format(pdf_path))

看看咱们得到的 pdf 文件路径是否正确。

pdfs

['pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf',
 'pdf/面向影子分析的社交媒体竞争情报搜集.pdf',
 'pdf/面向人机协同的移动互联网政务门户探析.pdf']

经验证。准确无误。

下面咱们利用 pdfminer 来从 pdf 文件中抽取内容。咱们须要从辅助 Python 文件 pdf_extractor.py 中读入函数 extract_pdf_content。

from pdf_extractor import extract_pdf_content

用这个函数，咱们尝试从 pdf 文件列表中的第一篇里，抽取内容，而且把文本保存在 content 变量里。

content = extract_pdf_content(pdfs[0])

咱们看看 content 里都有什么：

content

显然，内容抽取并不完美，页眉页脚等信息都混了进来。

不过，对于咱们的许多文本分析用途来讲，这可有可无。

你会看到 content 的内容里面有许多的 \n，这是什么呢？

咱们用 print 函数，来显示 content 的内容。

print(content)

能够清楚看到，那些 \n 是换行符。

经过一个 pdf 文件的抽取测试，咱们创建了信心。

下面，咱们该创建辞典，批量抽取和存储内容了。

mydict = {}

咱们遍历 pdfs 列表，把文件名称（不包含目录）做为键值。这样，咱们能够很容易看到，哪些pdf文件已经被抽取过了，哪些尚未抽取。

为了让这个过程更为清晰，咱们让Python输出正在抽取的 pdf 文件名。

for pdf in pdfs:
    key = pdf.split('/')[-1]
    if not key in mydict:
        print("Extracting content from {} ...".format(pdf))
        mydict[key] = extract_pdf_content(pdf)

抽取过程当中，你会看到这些输出信息：

Extracting content from pdf/复杂系统仿真的微博客虚假信息扩散模型研究.pdf ...
Extracting content from pdf/面向影子分析的社交媒体竞争情报搜集.pdf ...
Extracting content from pdf/面向人机协同的移动互联网政务门户探析.pdf ...

看看此时字典中的键值都有哪些：

mydict.keys()

dict_keys(['复杂系统仿真的微博客虚假信息扩散模型研究.pdf', '面向影子分析的社交媒体竞争情报搜集.pdf', '面向人机协同的移动互联网政务门户探析.pdf'])

一切正常。

下面咱们调用pandas，把字典变成数据框，以利于分析。

import pandas as pd

下面这条语句，就能够把字典转换成数据框了。注意后面的reset_index()把原先字典键值生成的索引也转换成了普通的列。

df = pd.DataFrame.from_dict(mydict, orient='index').reset_index()

而后咱们从新命名列，以便于后续使用。

df.columns = ["path", "content"]

此时的数据框内容以下：

df

能够看到，咱们的数据框拥有了pdf文件信息和所有文本内容。这样你就可使用关键词抽取、情感分析、类似度计算等等诸多分析工具了。

篇幅所限，咱们这里只用一个字符数量统计的例子来展现基本分析功能。

咱们让 Python 帮咱们统计抽取内容的长度。

df["length"] = df.content.apply(lambda x: len(x))

此时的数据框内容发生如下变化：

df

多出的一列，就是 pdf 文本内容的字符数量。

为了在 Jupyter Notebook 里面正确展现绘图结果，咱们须要使用如下语句：

%matplotlib inline

下面，咱们让 Pandas 把字符长度一列的信息用柱状图标示出来。为了显示的美观，咱们设置了图片的长宽比例，而且把对应的pdf文件名称以倾斜45度来展现。

若是对Python编程、网络爬虫、机器学习、数据挖掘、web开发、人工智能、面试经验交流。感兴趣能够519970686，群内会有不按期的发放免费的资料连接，这些资料都是从各个技术网站搜集、整理出来的，若是你有好的学习资料能够私聊发我，我会注明出处以后分享给你们。

import matplotlib.pyplot as plt
plt.figure(figsize=(14, 6))
df.set_index('path').length.plot(kind='bar')
plt.xticks(rotation=45)

可视化分析完成。

下面咱们把刚才的分析流程整理成函数，以便于未来更方便地调用。

咱们先整合pdf内容提取到字典的模块：

def get_mydict_from_pdf_path(mydict, pdf_path):
    pdfs = glob.glob("{}/*.pdf".format(pdf_path))
    for pdf in pdfs:
        key = pdf.split('/')[-1]
        if not key in mydict:
            print("Extracting content from {} ...".format(pdf))
            mydict[key] = extract_pdf_content(pdf)
    return mydict

这里输入是已有词典和pdf文件夹路径。输出为新的词典。

你可能会纳闷为什么还要输入“已有词典”。别着急，一下子我用实际例子展现给你看。

下面这个函数很是直白——就是把词典转换成数据框。

def make_df_from_mydict(mydict):
    df = pd.DataFrame.from_dict(mydict, orient='index').reset_index()
    df.columns = ["path", "content"]
    return df

最后一个函数，用于绘制统计出来的字符数量。

def draw_df(df):
    df["length"] = df.content.apply(lambda x: len(x))
    plt.figure(figsize=(14, 6))
    df.set_index('path').length.plot(kind='bar')
    plt.xticks(rotation=45)

函数已经编好，下面咱们来尝试一下。

还记得演示目录下有个子目录，叫作newpdf对吧？

咱们把其中的2个pdf文件，移动到pdf目录下面。

这样pdf目录下面，就有了5个文件：

咱们执行新整理出的3个函数。

首先输入已有的词典（注意此时里面已有3条记录），pdf文件夹路径没变化。输出是新的词典。

mydict = get_mydict_from_pdf_path(mydict, pdf_path)

Extracting content from pdf/微博客 Twitter 的企业竞争情报搜集.pdf ...
Extracting content from pdf/移动社交媒体用户隐私保护对策研究.pdf ...

注意这里的提示，原先的3个pdf文件没有被再次抽取，只有2个新pdf文件被抽取。

我们这里一共只有5个文件，因此你直观上可能没法感觉出显著的区别。

可是，假设你原先已经用几个小时，抽取了成百上千个pdf文件信息，结果你的老板又丢给你3个新的pdf文件……

若是你必须从头抽取信息，恐怕会很崩溃吧。

这时候，使用我们的函数，你能够在1分钟以内把新的文件内容追加进去。

这差异，不小吧？

下面咱们用新的词典，构建数据框。

df = make_df_from_mydict(mydict)

咱们绘制新的数据框里，pdf抽取文本字符数量。结果以下：

draw_df(df)

小结

总结一下，本文为你介绍了如下知识点：

如何用glob批量读取目录下指定格式的文件路径；
如何用pdfminer从pdf文件中抽取文本信息；
如何构建词典，存储与键值（本文中为文件名）对应的内容，而且避免重复处理数据；
如何将词典数据结构轻松转换为Pandas数据框，以便于后续数据分析。
如何用matplotlib和pandas自带的绘图函数轻松绘制柱状统计图形。

讨论

你以前作的数据分析工做中，遇到过须要从pdf文件抽取文本的任务吗？你是如何处理的？有没有更好的工具与方法？欢迎留言，把你的经验和思考分享给你们，咱们一块儿交流讨论。

出处：https://blog.csdn.net/Stephen_shijun/article/details/83582940