Python 解析财务报表中的表格数据(pdf to tables)

解析PDF经常使用组件(PdfBox、iText、Tika等)都没法将表格数据解析成有规则的格式。解析后格式基本是TEXT、XHTML等致使处理表格数据变的很是复杂,基本须要全枚举+正则才能处理个70-80%。最近看到Python能够解析表格因而尝试了一下,不过要想让数据可用,还存在不少问题待解决。 PDF文件截图 java Tika解析PDF文件 一、TEXT格式web Tika tika =
相关文章
相关标签/搜索