开发环境:Windows8.0 X64位 eclipse3.2java
版本号:xpdfbin-win-3.04 xpdf-chinese-simplified.tar.gzeclipse
下载路径:ftp://ftp.foolabs.com/pub/xpdf/字体
操做步骤:编码
下载xpdf和中文字体,分别解压缩。code
创建xpdf根目录 d:\xpdf,xml
(1)并将xpdfbin-win-3.04\bin64目录下全部文件复制到 d:\xpdf 下。ip
(2)将xpdf-chinese-simplified 整个文件夹复制到 d:\xpdf 下。ci
复制 xpdfbin-win-3.04\doc 路径下的 sample-xpdfrc 文件到 d:\xpdf 下,并更名为 xpdfrc。unicode
(1)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,开发
(2)并在下面增长 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。
(3)在此文件最后增长如下内容,声明中文字体文件
#----- begin Chinese Simplified support package (2011-sep-02) cidToUnicode Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode unicodeMap ISO-2022-CN D:/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap unicodeMap EUC-CN D:/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap unicodeMap GBK D:/xpdf/xpdf-chinese-simplified/GBK.unicodeMap cMapDir Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap toUnicodeDir D:/xpdf/xpdf-chinese-simplified/CMap #displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf #fontFileCC Adobe-GB1 /usr/..../gkai00mp.ttf #----- end Chinese Simplified support package
实验代码
@Test public void xpdfParser(){ try { cmd = "d:\\xpdf\\pdftotext.exe -enc UTF-8 -q D:\\datadir\\Web数据挖掘综述.pdf d:\\datadir\\pdftxtdir\\Web数据挖掘综述.txt "; Runtime.getRuntime().exec(cmd); } catch (IOException e) { e.printStackTrace(); } }以上代码不完整,主要是xpdf路径设置可能会有问题,另外就是中文字库文件路径设置必须正确,不然导出的txt文件没有内容。
如有不清楚的地方,或者发现问题,可回复我,多谢!