PDF信息抽取工具(PDFConverter)

简介 目前,PDF已成为电子文档发行和数字化信息传播的一个标 准,其广泛应用于学术界的交流以及各类公告的发行。如何从非结构化的PDF文档中抽取结构化数据是知识图谱领域所面临的一大 挑战。本项目利用Adobe公司开发的 Acrobat DC SDK对PDF进行格式 转换,从半结构化的中间文件进行信息抽取。相比已有方法, Acrobat导出的中间文件保存了更完整更准确的表格和文本段落信 息,能应用于不
相关文章
相关标签/搜索