用xpdf和pdfbox来处理中文PDF文档及其比较

我在以前的项目中使用的是pdfbox,在读取中文文档时可以读出大部分的文字,但是在数字、分页等地方还是不可避免的出现乱码。于是我在网上搜索,看有没有什么解决方法,看到有说法: “PDFBox看起来非常的方便,它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点,就是它不支持中文。要提取中文的文本,可以采用另一个非常出色的工具xpdf。” 于是我决定自己比较一下这两种方法处
相关文章
相关标签/搜索