lucene读取word,excel,pdf

时间 2019-11-06

标签 lucene 读取 word excel pdf 栏目 Microsoft Office 繁體版

原文原文链接

前面在写lucene入门的时候，例子只能对txt文档创建索引，不能对word,excel,pdf创建索引，要读取这些文档的内容，须要额外的jar包，好在apache这个开源组织好，提供了对这些文档解析的开源jar包 html

索引和查询，我就再也不写出来了，前面文章有，下面只将这三种文档的读取方法贴在下面 java

1.首先来看WORD文档： apache

这里用的是poi，相关jar包(http://poi.apache.org/)能够到apache官网上去下载，而后加到工程中（如下所要用的jar包也是，再也不重复说）。一个poi.jar还不行，还须要将poi-scratchpad.jar包导入才行 api

[java] view plain copy

2.再来看EXCEL文档： app

这里用的是jxl包，但jxl包(http://www.andykhan.com/jexcelapi/ )目前还尚不支持2007或更高的版本，但poi能够，如今相信开源的强大了，solr在今年3月份出的3.1版，5月份就出了3.2版，能够看出更新的速度 ui

下面的例子，是用jxl包读取excel2003的，有兴趣的能够去查一下，用poi去读07版的excel，好像要加入不少关联jar包才行 spa

[java] view plain copy

3.最后来看PDF文档： .net

这里用的是PDFBox，相关jar包能够到apache官网上去下载：http://pdfbox.apache.org/download.html excel

这里要注意，若是只单单导入pdfbox.jar包，还会报错，还须要导入commons-logging.jar和fontbox.jar包才行 htm

[java] view plain copy

若是提取pdf文档的时候都会抛出异常：java.lang.Throwable: Warning: You did not close the PDF Document，请参考下面资料：

在solr官网上看到：

Rich Document Parsing and Indexing (PDF, Word, HTML, etc) using Apache Tika

Tika好像是把poi,pdfbox等一些解析jar包容到一块儿了，下面看看如何在solr中实现对pdf的解析，估计要看配置文件才行

参考资料：