你们在读个人文章以前能够看看这篇文章:http://my.oschina.net/crxy/blog/412202 测试
很感谢这篇文章的做者:http://blog.csdn.net/tjcyjd/article/details/43453007 编码
他给了我启发,这篇文章里面有lucene的源码。spa
上一篇文章我提到在CDH中如何添加IK分词,根据上面两篇文章。我依然没法添加自定义词库。通常来讲不能添加词库有两个缘由:solr与IK版本问题、词库编码问题,上面的文章有提到。并且第二篇博客的rar文件中有一个pdf,已经很详细了。.net
可是经过各类方法,我依然不能添加自定义词库。很苦恼。后来我打开了源码,才发现做者默认的词库是main2012.dic。我把IKAnalyzer2012FF_u1.jar用winrar解压,把IKAnalyzer2012FF_u1\org\wltea\analyzer\dic\main2012.dic取出来,把本身的词库放进去,再把main2012.dic放入jar包中就能够了。因为没有修改class文件,就不须要编译了,直接用main2012.dic覆盖jar中main2012.dic的就能够了。blog
剩下的就和我上一篇博客同样,添加IK分词器,就能够了。你们能够对分词的fieldtype测试,便发现成功了。get
这种修改源码文件是下下策,若是按照前面那两篇文章能够实现,我不建议使用我这种方法。源码