(7)PDFMiner提取PDF文本

PDFMiner是一个能够从PDF文档中提取信息的工具。与其余PDF相关的工具不一样,它注重的彻底是获取和分析文本数据。PDFMiner容许你获取某一页中文本的准确位置和一些诸如字体、行数的信息。它包括一个PDF转换器,能够把PDF文件转换成HTML等格式。它还有一个扩展的PDF解析器,能够用于除文本分析之外的其余用途。 PDFMiner内置两个好用的工具:pdf2txt.py和dumppdf.p
相关文章
相关标签/搜索