问题一: 测试人员告诉我数字不能被搜索。因而开始找缘由:
<fields>
***
<field name="productName" type="text" indexed="true" stored="true" />
***
</fields>
fieldType text配置:
<fieldType name="text" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.LowerCaseTokenizerFactory"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.LowerCaseTokenizerFactory"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
</analyzer>
</fieldType>
当个人productName中包含数字字符的时。好比有个产品的名字叫 ‘嘎嘎噶123’ 那么用数字1/2/3/12等等都不能搜索到
当时‘123嘎嘎噶’时也是同样。找了很久没有找到缘由。也不知道怎么去找这个缘由。因而边问喷油。猜测是分词的问题。因而边看Solr的管理界面看能发现点啥?ide
终于QQ群里一哥们说 solr.LowerCaseTokenizerFactory 会过滤掉数字 在Solr的Analysis 菜单下 看到了能够进行分词的演示正对当前的schema.xml配置。还能够选择相应的 field 一试 果然是LowerCaseTokenizerFactory 这个家伙的问题。因而寻找替代方案。通过尝试与搜索。下面的配置
最终解决了数字不能被搜索的问题。(相应的属性也改成此类型)
<fieldType name="text_inclunum" class="solr.TextField" positionIncrementGap="100">
<analyzer type="index">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
</analyzer>
<analyzer type="query">
<tokenizer class="solr.WhitespaceTokenizerFactory"/>
<filter class="solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50" side="front"/>
</analyzer>
</fieldType>
因为咱们库里的产品有拼音字段。并且是大写。 若是我用AMXL 搜索 能搜到相应的拼音。进而搜索相应的产品阿莫西林。(solr配置了all查询。拼音字段copy到了all中。)
可若是我用amxl搜索则不能搜到。因而我在程序中solr的查询语句时把查询值toUpperCase(); 终于解决了小写字母不能搜索的问题。
问题二:
但次日发现引入的了新的问题。若是一个产品是 ‘d阿莫西林’ 那么我用d阿莫西林 进行搜索,将不能把 'd阿莫西林'这个产品搜出来。开始不知道为啥,放到Solr的Analysis中一测。发现了。我程序把它变为 ‘D阿莫西林’ 进行查询了。但SOlr中搜索的倒是'd阿莫西林 ' ,此次全部已小写字母打头的产品。若是用产品全名如‘‘d阿莫西林’进行搜索(自动补全出来的),将不能搜索出来。
解决了数字的问题。又遇到了小写字母的问题。 此次没有找到个Solr这边的方案。因而打算修改程序。 思路就是 把程序中SOlr的查询值变大写的地方改成。若是查询的值中有中文则不变大写。若是没有则变大写。
这样的话。若是产品是有数字的,或者有小写字母的 都能被搜索出来。 全字母的也能根据拼音搜索出来。("solr.EdgeNGramFilterFactory" minGramSize="1" maxGramSize="50")这个就是从左到右一个一个分词的。
因而 网上搜索一个正则查找字符串中是否有中文:
/**
* 判断一个字符串中是否含有中文
* @param str
* @return
*/
public static boolean isContainsChinese(String str)
{
Matcher matcher = Pattern.compile("[\u4e00-\u9fa5]").matcher(str);
boolean flg = false;
if (matcher.find()) {
flg = true;
}
return flg;
}
public static String toUpperOrNot(String temp)
{
if (temp == null)
return "";
if(StringUtils.isContainsChinese(temp))
{
return temp;
}else
{
return temp.toUpperCase();
}
}
因而在SOLR查询值的地方调用下toUpperOrNot()便可。最好调用下下面的转义。
舒适提示: Solr查询中若是查询值中有特殊字符须要转义:
public static final String NEAD_TO_CONVERT_CHAR = "([/:()!])";
// solr query need to convert meaning
public static String convertMeaningChar(String temp)
{
if (temp == null)
return "";
temp = temp.replaceAll(NEAD_TO_CONVERT_CHAR, "\\\\$1");
return temp;
}
测试