lucene开发必备工具luke介绍

本文已经迁移到搞搜索 java

作lucene开发的,免不了要和索引文件打交道,可是一些二进制的文件咱们怎么去看,下面就要隆重的有请luke了 数据库

根据百度百科的说法:Luke是一个用于Lucene搜索引擎的,方便开发和诊断的第三方工具,它能够访问现有Lucene的索引,并容许您显示和修改。 分布式

咱们能够经过luke来进行通常的索引查看和修改操做。 工具

就打个比方,lucene的索引文件就好像是数据库存储的数据文件,luke就是一个DBMS系统,相信都懂的^_^ oop

首先jdk是必须地,而后直接到googlecode上把最新的luke下下来,我如今用的是3.5版本,下下来就是一个jar包,能够直接双击打开,或者到命令行:java -jar /lukeall-3.5.0.jar,界面仍是不错的哈,而后上方的菜单栏上的file按钮就能够打开索引目录了,若是当前索引已经被打开了(里面有write.lock文件了),咱们就可使用强制解锁的方法来打开目录,或者是使用readonly的方法来打开索引目录,打开后就能够像DBMS一看的查看索引里面保存的数据了,若是索引改变了,能够点击overview界面上的re-open按钮从新打开。 性能

共有5个界面: 测试

overview是用来进行索引的通常性查看和操做的,好比索引目录民,索引文件版本。。。等等概要信息,右上角三个按钮分别能够从新打开索引,提交索引更改和关闭当前打开的索引,下面两个list就是显示词和字段的相关信息了。 优化

documents界面是用来进行文档的操做和查看的,好比文件的删除、添加。下面一个大listview就能够用来查看文档的详细信息了,是否是和DBMS的查看表数据很是的像呢?上面有两个查找文档的方法,根据文档编号来查找和根据词来查找了,其实这个就是搜索了 搜索引擎

search界面是我认为最有用的一个界面了,其中咱们能够在这里进行索引的搜索测试,能够编写最的lucene搜索语句,而后能够看到语句解析后的query树,这样就能够知道为何咱们有些查询会查询不到咱们想要的信息了,而后还能够选择进行搜索的分词器、默认字段和重复搜索次数的(能够经过屡次搜索来获取平均一个搜索过程的耗时长短,这个对查询的性能测试时很是有用的),而后下面的listview中就会列出一个搜索的的文档的全部保存的(store)字段的值,下面能够看到查询花费的时间 google

file界面,故名思义,这个就是用来查看每一个索引相关文件的一些属性的界面,具体的话,能够经过这个界面分析下索引文件的多少,是否须要优化或者合并等等。。。。

最后一个plugins界面,就是能够看到luke提供的各类插件,我认为比较有用的仍是那个分词工具,提供一个分词的类,而后下面文本框输入一段文本,而后就可让这个工具帮你分词,你能够看到详细的分词信息,相信这个对自定义分词器的调试或者测试仍是颇有用的。而后还有一个hadoop插件,支持从hadoop节点中获取节点中文件的相关信息,这个应该对分布式搜索引擎搭建仍是有那么点用吧。。。。不过我认为若是用hadoop的话,必定会用更强大的插件的。。。这个是否是有点多余了,哈哈

 附上下载地址:http://code.google.com/p/luke/downloads/list

文笔很差,并且没有配上图片(不知道怎么上传图片 = =)但愿你们多多批评指教哈,另外五一快乐!!!!IT民工们!!

相关文章
相关标签/搜索