Solr及Spring-Data-Solr入门学习

时间 2019-11-11

标签 solr spring data 入门学习栏目 Spring 繁體版

原文原文链接

Solr的安装与配置html

多数搜索引擎应用都必须具备某种搜索功能，而搜索功能每每大量的消耗资源致使应用程序运行缓慢。为此，出现了各类用于构建搜索的应用程序，咱们要学习的solr正是其中的一款开源搜索平台。前端

Apache Solr 是创建在Lucene(全文搜索引擎)之上，帮助我从大量的数据中寻找所需信息。不只限于搜索，Solr也可用于储存目的。像其余NoSQL数据库同样，它是一种非关系数据储存和处理技术。java

git

下面咱们开始喜闻乐见的手摸手教学，教你优雅的整合SSM框架和Solr搜索框架。github

项目开源地址： Github

项目中使用了SSM + Shiro + Redis + Solr + Vue.JS + ElementUI技术，优雅的整合了SSM框架阶段几个常见的企业框架；并用Vue.js + ElementUI写了超漂亮的前端页面；若是以为能够，就点亮右上角star吧(#^.^#)。web

若是你对Shiro+用户-角色-权限整合不是很懂，你或许能够看下个人这个项目：手摸手教你SSM整合Shiro框架后的开发。redis

平常学习记录，若是想支持我，但愿能在Github上看到你点亮的星星(#^.^#)。spring

数据库

本例中使用的Solr和Tomcat我已经上传到了Github，仓库地址： Tomcat搭建Solr运行环境，集成Ik 中文分词器

apache

安装

在 Apache Solr官网下载最新版的Solr，在 Apache Tomcat官网下载Tomcat。

解压solr，发现其中有以下目录结构

新版本的Solr和老版本的不一样，老版本中直接提供的是war文件，新版本则是提供了直接可运行的项目；其次须要导入项目中的的文件也有所不一样的。下面咱们介绍一下完整的配置和Solr项目的启动：

一、将solr-7.4.0/server/solr-webapp/下的webapp文件夹拷贝到Tomcat下的webapps目录下（并重命名为solr）。
二、将solr-7.4.0/server/lib/ext/下的全部Jar文件所有拷贝到Tomcat下webapps/solr/WEB-INF/lib目录下。
三、将solr-7.4.0/server/lib下全部metrics开头的jar文件所有拷贝到webapps/solr/WEB-INF/lib目录下。
四、将solr/7.4.0/server/solr文件夹复制到任意一个位置并重命名为solrhome。
五、修改tomcat/webapps/solr/WEB-INF/web.xml文件的第41行，指定solrhome所在的目录。

六、在webapps/solr/WEB-INF/web.xml下的第125行出添加注释，也就是注释<security-constraint></secirity-constraint>节点下的配置。

七、启动Tomcat，在浏览器中访问http://localhost:8080/solr/index.html便可访问到solr Admin

如上所示，你会发现其左下角显示的是No cores，这和老版本的可能又有所差异，因此咱们点击No cores，建立一个新的cores，那么会在咱们指定的solrhome文件夹内产生一个new_core的空文件夹，而且页面会报错：Can't find resource 'solrconfig.xml' in xxx，表示的就是在这个新core下的conf文件夹下没有找到solrconfig.xml文件：

咱们须要将复制来的configsets/_default/conf这个文件夹（或者solr-7.4.0/server/solr/configsets/_default/conf文件夹）复制到solrhome/new_core/文件夹下。

八、重启Tomcat服务器，发现仍是没有出现新的core，点击No cores那里点击add core，此时就会完整的建立一个新的core，在solrhome/new_core文件夹下会生成新的文件：

至此Solr已经安装完成。

中文分词器

上面咱们成功的安装了solr，下面就要进行相关的配置。由于solr是一个开源的搜索平台，主要功能就是把用户输入的搜索信息分类汇总并进行数据库的查询，而中文众所周知语义比较复杂，并且中文所占的字节和英文也有所不一样，因此就出现了中文分词器，实现模拟中文语义对数据进行分词衍化。IK Analyzer正是其中的一种分词器。

IK Analyzer在solr工程中的配置以下：

一、下载ikanalyzer相关配置文件，由于Maven仓库中的ikanalyzer版本太老，solr5以上的版本都不支持，因此这里提供一个新版本：传送门
二、将下载的jar文件copy到webapps/solr/WEB-INF/lib文件夹下
三、在webapps/solr/WEB-INF/下建立classes文件夹，将上面下载的文件夹中的ext.dic、IKAnalyzer.cfg.xml、stopword.dic三个文件复制到webapps/solr/WEB-INF/classes/文件夹下。
四、在solrhome/conf/目录下咱们发现并无schema.xml文件，这和老版本又有所不一样，老版本直接生成好了schema.xml文件，在新版本中咱们能够发现/conf文件夹中存在一个managed-schema文件，这个其实就是咱们要的schema.xml文件。可是咱们又不能直接用，具体缘由参考博文
五、直接将managed-schema文件重命名为schema.xml。并在schema.xml的最后添加<fieldType>节点：

<fieldType name="text_ik" class="solr.TextField">
     <analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>

六、重启Tomcat服务器，从新访问项目，点击new_core下的Schema功能，在select下拉框中输入text_ik若是出现刚建立的text_ik，说明IK中文分词器安装成功。

测试

未使用分词器效果：

使用了分词器的效果显而易见：

配置域

solr和其余NoSQL数据库同样能够实现数据存储，因此咱们能够以数据库的思想一想象一下solr，以前咱们新建立的core就相似一个数据库，那么下面要配置的域就至关于数据库的表字段，所以要手动的去定义系统中须要的字段Field（域）。

一般咱们建立的一种Field分别对应这一类数据，用户对同一种数据进行相同的操做。域经常使用的属性有：

name: 指定域的名称
type: 指定域的类型
indexed: 是否索引
stored: 是否储存
required: 是否必须
multiValued: 是否多值

域的介绍

如上面的介绍，域相似数据库中的表字段，而咱们作项目时数据库的字段都是根据项目需求建立的，因此域也是如此，它是根据搜索平台须要搜索的信息对应的数据库表字段来建立的。

好比，在淘宝商城购买商品，咱们可能会搜索：一、品牌（对应数据库中brand字段）；二、价格（对应数据库中price字段）；三、商品介绍名称（对应数据库中title字段）等等...

每一中域（字段）都用<field>字段设定，好比如上的搜索数据，咱们能够设置为：

<field name="item_title" type="text_ik" indexed="true" stored="true"/>
<field name="item_price" type="pdouble" indexed="true" stored="true"/>
<field name="item_image" type="string" indexed="false" stored="true" />
<field name="item_category" type="string" indexed="true" stored="true" />
<field name="item_seller" type="text_ik" indexed="true" stored="true" />
<field name="item_brand" type="string" indexed="true" stored="true" />

在新版本的solr中，type属性不能单单设置为基本的数据类型名称了，具体用法要参考schema.xml文件中以前已存在的配置，例如：long要写成plong，double要写为pdouble，否则就会报错。

注意：

你会奇怪域的设定不就是根据用户搜索的数据分类来设定的吗，那为什么还要指定indexed="true"，缘由：可能有些数据是否是用户输入的查询的，可是仍是须要在用户搜索的同时检索出来。
你会奇怪为什么要设定stored，缘由：大多数域都是要进行存储的，可是也有不须要存储的，好比复制域。

复制域

复制域的做用在于将某一个Field中的数据复制到另外一个域中。因为用户输入的数据多是查询的价格，也多是商品的title，又或者是商品的品牌等... 咱们没法预测用户要查询的是什么，由此出现了搜索引擎平台，帮助咱们对查询数据进行分类。因此，solr的目标是实现两种不一样的域能够在同一个域中查询（发送一次请求），而复制域的出现正可解决这一问题。

如此，咱们为上面要查询的字段设定复制域：

<field name="item_keywords" type="text_ik" indexed="true" stored="false" multiValued="true"/>
<copyField source="item_title" dest="item_keywords"/>
<copyField source="item_category" dest="item_keywords"/>
<copyField source="item_seller" dest="item_keywords"/>

其中的source属性值要和<field>中的name保持一致。

动态域

在项目中，商品的数据可能会动态的添加或减小，好比原来没有的数据，可是后来又完善添加上去了，那么就须要动态的配置从而实现用户能及时查询到。

<dynamicField name="item_conf_*" type="string" indexed="true" stored="true">

Spring Data Solr入门

通过上面的安装和配置你们应该已经知道如何配置Solr，那么就会思考一个问题了：这个solr项目和咱们实际的项目查询有什么关系呢？是怎么结合的呢？

solr官方提供了solrj API，就是一个jar文件，咱们能够经过solr官方提供的接口来实现本地项目和solr项目的交互；而这里咱们要介绍的是Spring Data Solr，它是Spring Data家族对solrj进行封装后的框架。

注意上面咱们在Tomcat中部署的solr项目是不须要再进行位置上的变更的，也就是他必须是已经在Tomcat中部署好的，而咱们本身的项目启动时不能再使用8080端口（由于solr自己就占用了Tomcat的端口，而咱们的项目是能够改变运行端口的，总之二者不管是否是在同一个Tomcat服务器中部署都不能使用同一端口）。咱们经过配置文件就能访问到这个指定端口的solr项目（Tomcat必须是启动着的），经过Spring Data Solr提供的接口就能实现交互：所谓交互 --> 等价于查询solr中以存在的数据，而后将结果返回：
- 用户查询，请求接口将查询条件交给solr（经过Spring Data Solr提供的接口访问Solr服务），solr对自身已存在的数据进行查找

准备

导入jar文件

<dependency>
	    <groupId>org.springframework.data</groupId>
	    <artifactId>spring-data-solr</artifactId>
	    <version>1.5.5.RELEASE</version>
</dependency>

建立配置文件

既然是Spring家族的框架，固然要进行配置使用了，建立spring-solr.xml

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
       xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
       xmlns:solr="http://www.springframework.org/schema/data/solr"
       xsi:schemaLocation="http://www.springframework.org/schema/data/solr
  		http://www.springframework.org/schema/data/solr/spring-solr-1.0.xsd
		http://www.springframework.org/schema/beans
		http://www.springframework.org/schema/beans/spring-beans.xsd">

    <!-- solr服务器地址 -->
    <solr:solr-server id="solrServer" url="http://127.0.0.1:8080/solr/new_core"/>

    <!-- solr模板，使用solr模板可对索引库进行CRUD的操做 -->
    <bean id="solrTemplate" class="org.springframework.data.solr.core.SolrTemplate">
        <constructor-arg ref="solrServer"/>
    </bean>
</beans>

注意：

必定要注意solr配置中solr服务器地址的配置，这个url必定是solr项目访问地址 + /core实例名称组合的路径。通常咱们新建的core实例名称就是new_core。

为实体类属性添加@Field注解

上面完成了基本的环境配置，下面则须要为实体类中属性添加@Field注解标识。

通常咱们定义的实体类属性名称和数据库的字段名称类似，可是，若是使用了Solr搜索，每次查询数据将再也不查询数据库，那么Solr怎么获取到你要查询的是商品的title仍是price呢？

这里就须要使用@Field注解，保证明体类属性名称和Solr索引库中定义的Field域名称对应，若是当前属性名称和Solr索引库域Field名称相同，就添加@Field名称，若是不相同就添加@Field("域名称")注解。

这里咱们这样定义实体类 Goods

public class Goods implements Serializable{
    @Field
    private Long id; //商品ID
    @Field("item_title")
    private String title; //商品标题
    @Field("item_price")
    private String price; //商品价格
    @Field("item_image")
    private String image; //商品图片
    @Field("item_category")
    private String category; //商品类别
    @Field("item_brand")
    private String brand; //商品品牌
    @Field("item_seller")
    private String seller; //商品卖家
}

注意：舒适提示一下，你们建立实体类的时候尽可能养成一个习惯：实现Serializable序列化接口。不序列化早晚会遇到问题。

实例

本例详细代码请参看: Github

因为咱们建立的是测试类，须要使用@RunWith和@ContextConfiguration注解加载配置文件。
在测试类中用注入Spring Data Solr操做Solr索引库的核心类SolrTemplate

@Autowired
private SolrTemplate solrTemplate;

添加

@Test
public void testAdd() {
    Goods goods = new Goods(1L, "IPhone SE", "120", "手机", "Apple", "Apple");
    solrTemplate.saveBean(goods);
    solrTemplate.commit(); //提交
}

实现数据的添加：

实例化一个实体类，并添加数据。
调用solrTemplate的saveBean()方法；这个saveBean()是用来添加普通对象类型数据到Solr索引库的，若是是List集合这种类型，使用saveBeans()方法。
调用solrTemplate的commit()方法，提交更改；相似于咱们请求数据库时须要关闭链接同样，必须调用commit()方法才能保存修改。

按主键查询

@Test
public void testFindById() {
    Goods goods = solrTemplate.getById(1, Goods.class);
    System.out.println("--------" + goods.getTitle());
}

按主键删除

@Test
public void testDeleteById() {
    solrTemplate.deleteById("1");
    solrTemplate.commit(); //提交
}

批量插入数据

@Test
public void testAddList() {
    List<Goods> list = new ArrayList<Goods>();
    //循环插入100条数据
    for (int i = 0; i < 100; i++) {
        Goods goods = new Goods(i + 1L, "华为Mate" + i, String.valueOf(2000 + i), "手机", "手机", "华为专卖店");
        list.add(goods);
    }
    solrTemplate.saveBeans(list); //添加集合对象，调用saveBeans()；添加普通对象类型数据，使用saveBean();
    solrTemplate.commit(); //提交
}

分页查询

@Test
public void testPageQuery() {
    Query query = new SimpleQuery("*:*");
    query.setOffset(20); //开始索引（默认0）
    query.setRows(20); //每页记录数（默认10）
    ScoredPage<Goods> page = solrTemplate.queryForPage(query, Goods.class);
    System.out.println("总记录数：" + page.getTotalElements());
    List<Goods> list = page.getContent();
}

上面使用new SimpleQuery方式是声明一个Query实例，而("*:*")表示查询Solr索引库中的全部数据。Solr默认查询的数据是前十条记录，也就是即使使用了("*:*")查询，也仅仅是查询到十条记录。不过Solr提供了分页查询的方法：setOffset()设置开始索引位置，setRows()设置结束索引位置（默认10）；调用solrTemplate.queryForPage(query, clazz)便是分页查询。

分页查询到的结果存储在page对象中，使用page.getTotalElements()能够获取到查询的总记录数，使用page.getContent()获取到查询的数据。

条件查询

@Test
public void testPageQueryMutil() {
    Query query = new SimpleQuery("*:*");
    Criteria criteria = new Criteria("item_title").contains("2");
    criteria = criteria.and("item_title").contains("5");
    query.addCriteria(criteria);

    ScoredPage<Goods> page = solrTemplate.queryForPage(query, Goods.class);
    System.out.println("总记录数：" + page.getTotalElements());
    List<Goods> list = page.getContent();
}

如上，使用分页插件须要实例化Criteria类添加查询条件，查询是根据schema.xml中定义的Field域名称查询的，至关于根据数据库的字段名称查询同样。

删除全部

@Test
public void deleteAll(){
    Query query = new SimpleQuery("*:*");
    solrTemplate.delete(query);
}

交流

若是你们有兴趣，欢迎你们加入个人Java交流群：671017003 ，一块儿交流学习Java技术。博主目前一直在自学JAVA中，技术有限，若是能够，会尽力给你们提供一些帮助，或是一些学习方法，固然群里的大佬都会积极给新手答疑的。因此，别犹豫，快来加入咱们吧！

联系

If you have some questions after you see this article, you can contact me or you can find some info by clicking these links.

[Blog@TyCoding's blog](http://www.tycoding.cn)
[GitHub@TyCoding](https://github.com/TyCoding)
[ZhiHu@TyCoding](https://www.zhihu.com/people/tomo-83-82/activities)

1. SpringDataSolr入门
2. Solr及Spring-Data-Solr入门学习
3. Solr入门学习
4. solr学习入门一
5. solr学习笔记-入门
6. Solr学习总结（1）——Apache Solr快速入门
7. Solr入门（一）Solr简介
8. [转]solr入门
9. lucene入门&Solr
10. Solr 入门
更多相关文章...
• Memcached入门教程 - NoSQL教程
• 您已经学习了 XML Schema，下一步学习什么呢？ - XML Schema 教程
• YAML 入门教程
• Tomcat学习笔记（史上最全tomcat学习笔记）