用xpdf和pdfbox来处理中文PDF文档及其比较

时间 2021-01-11

标签 C++ C# Adobe 栏目 C&C++ 繁體版

原文原文链接

我在以前的项目中使用的是pdfbox，在读取中文文档时可以读出大部分的文字，但是在数字、分页等地方还是不可避免的出现乱码。于是我在网上搜索，看有没有什么解决方法，看到有说法： “PDFBox看起来非常的方便，它的API功能强大。甚至能和Lucene进行无缝的结合。但是它有一个致命的弱点，就是它不支持中文。要提取中文的文本，可以采用另一个非常出色的工具xpdf。” 于是我决定自己比较一下这两种方法处

>>阅读原文<<

1. PDF文档解析：PDFBox和iText实例
2. 处理PDF文档
3. PDFBox读取PDF文档元数据
4. pdfBox 解析 pdf文件
5. 谷歌文档_如何比较Google文档中的文档
6. PDFBox之文档建立
7. 中文文档预处理
8. 比较表帮助文档
9. 版本管理 word 文档比较
10. 经过FreeMarker生成word文档及处处PDF文件
更多相关文章...
• PHP 文件处理 - PHP教程
• WSDL 文档 - WSDL 教程
• Scala 中文乱码解决
• SpringBoot中properties文件不能自动提示解决方法