iText是著名的开放源码的站点sourceforge的一个项目,它是一个用于生成PDF文档的一个java开源库。经过iText不只能够生成PDF或rtf的文档,并且能够将XML、Html文件转化为PDF文件。若是PDF是标记的且包含一个结构树,就能够借助于iText将PDF文档转换成XML文档(这每每取决于PDF文档是如何建立的)。另外还能够从页面中提取纯文本。iText还能够用来标识现有的PDF文档,以及对它们进行加密等。下面给出使用iText对图5.12所示的PDF转换为纯文本的方法、步骤。 java
(1)在Eclipse中新建一个Java工程。 测试
(2)下载相应的iText-5.0.2.jar并放到对应的lib目录下。在工程中建立包并建立测试类,该类包含一个inspect方法用于从一个PDF中获取文本,它接受两个参数,分别是PDF文件路径和输出流,指定要提取的PDF文件的路径和读取PDF所用的输出流,好比:PDF路径为E://text.pdf。而后调用iText提供的PdfReader类和PdfTextExtractor类,将PDF格式的文本提取出来并写入txt文件中。部分代码以下: 加密
import java.io.FileOutputStream; ip
import java.io.IOException; 文档
import java.io.PrintWriter; get
import com.itextpdf.text.DocumentException; 源码
import com.itextpdf.text.pdf.PdfReader; string
import com.itextpdf.text.pdf.parser.PdfTextExtractor; it
public class PDF { io
/** The resulting text file with info about a PDF. */
public static final String RESULT = "d:/ceshi.txt";//存放由pdf转换成txt文件的路径。
/**
* Main method.
* @param args no arguments needed
* @throws DocumentException
* @throws IOException
*/
public static void main(String[] args)
throws DocumentException, IOException {
PrintWriter writer = new PrintWriter(new FileOutputStream(RESULT));//txt文件写入流
String string = "E:/text.pdf";//pdf文件路径
inspect(writer,string); //调用读取方法
writer.close();
}
/**
* Inspect a PDF file and write the info to a txt file
* @param writer Writer to a text file
* @param filename Path to the PDF file
* @throws IOException
*/
public static void inspect(PrintWriter writer, String filename)
throws IOException {
PdfReader reader = new PdfReader(filename); //读取pdf所使用的输出流
int num = reader.getNumberOfPages();//得到页数
String content = ""; //存放读取出的文档内容
for (int i = 1; i < num; i++) {
content += PdfTextExtractor.getTextFromPage(reader, i); //读取第i页的文档内容
}
writer.write(content);//写入文件内容
writer.flush();
}
}