Spring Boot + Elasticsearch实现大批量数据集下中文的精确匹配-案例剖析

数据存储在MYSQ库中，数据基本维持不变，但数据量又较大(几千万)放在MYSQL中查询效率上较慢，寻求一种简单有效的方式提升查询效率，MYSQL并不擅长大规模数据量下的数据查询。前端

考虑后期一样会使用到es，这次直接结合spring-boot框架造成一个独立服务，并不涉及UI展示内容，（ES版本2.4.5，5.0+版本的话就不能再使用spring data elasticsearch）技术组合以下：java

Spring Boot+ Spring-data-elasticsearch + Elasticsearchmysql

结合elasticsearch-jdbc插件，全量将数据一次性导入es中，后期不涉及数据变动。git

测试期间单机安装，官网下载对应版本，因为笔者工做环境基于JDK7，因此下载5.0如下版本，5.0+均依赖Java8，同时使用到elasticsearch-jdbc插件，一并下载安装完成。程序员

直接使用elasticsearch-jdbc工具，编写脚本文件，抽取数据到es中，脚本样例以下：github

数据导入成功后，可以使用head插件直接查看到。使用基本查询测试，查询条件是name=测试&num=100，使用精确匹配term语句，查询数据未果，实际使用num=100独立查询时，有相关数据。

致使此现象的缘由在于中文分词的问题，使用elasticsearch-jdbc脚本中并未处理列的mapping类型。(中间作过一次尝试，在脚本中定义对应的type_mapping，但并未成功，有兴趣的朋友可再作尝试)。

注：es与ik分词插件结合，版本匹配须要特别关注，但本案例并不涉及

结合此案例，查询时并不须要分词，而是精确匹配，但es默认状况下是指定string类型的分词，因此在index建立以前咱们须要手动指定相关列不须要分词：not_analyzed，形如：

建立索引成功后，再使用elasticsearch-jdbc的脚本导入数据，相关数据列不会再使用分词分析，再使用term组合精确查询时，就能够查询相关数据来。

pom.xml关键配置

与elasticsearch交互实体

@Data
@Document(indexName = "my-index", type = "my-type", shards = 5, replicas = 1, indexStoreType = "fs", refreshInterval = "-1")
public class DataBean {
/**
* code:名称
*
* @since JDK 1.6
*/
public String name;
/**
* msg:编号
*
* @since JDK 1.6
*/
public String num;
}

与es交互接口类，返回数据的惟一_id值，若查得数据表示命中数据，若为空并未数据不存在

public interface DataBeanRepository extends ElasticsearchRepository<DataBean, Long> {
//案例中并未使用，但能够用
public List<BlackGreyData> findByNameAndNum(String name, String num);
}

下面是业务处理层，采用BoolQueryBuilder构建查询条件，也便可基于DSL模块查询数据，还能够采用Criteria查询。

@Autowired
DataBeanRepository repository;
@Override
public List<DataBean> query(String name, String num, String type) {
//采用过滤器的形式，提升查询效率
BoolQueryBuilder builder = QueryBuilders.boolQuery();
builder.must(QueryBuilders.termQuery("name", name)).must(QueryBuilders.termQuery("num", num));
Iterable<DataBean> lists = repository.search(builder);
List<DataBean> datas = new ArrayList<>();
for (DataBean dataBean : lists) {
datas.add(dataBean);
logger.info("---------------------->>>Request result = 【" + dataBean + "】");
}
return datas;
}

其它再编写对应的请求响应逻辑，便可完成简单服务的完成。

GPS数据量5000W+，精确匹配查询出来50条数据，耗时700ms左右，结果查询缓存机制，基本能够稳定在300ms左右。这也是在单节点，未做任何优化的状况的结果。

扩展阅读：

歪脖贰点零 ∣ 认知升级· 终身学习

程序员，除了编码，生活还应该有沉淀！

长按，识别二维码，加关注