如何从pdf文件中提取有用信息

首先,须要学习PDFBox,PDFBox项目中有两个子项目:FontBox和JempBox。FontBox是一个处理PDF字体的Java类库,JempBox是一个处理XMP元数据的Java类库。 PDF文档内容流中的数据能够被当作是操做符和操做数组组成的序列,从实现的角度看,PDF数据是一系列基本对象的集合:数组、布尔型、字典、数字、字符串和二进制流。 PDFBox的主要包介绍参见这位同窗写的博客
相关文章
相关标签/搜索