因为笔者在实际项目仅仅将ES用做索引数据库,并无深刻研究过ES的搜索功能。并且鉴于笔者的搜索引擎知识有限,本文将仅仅介绍ES简单(非全文)的查询API。javascript
笔者本来打算在本文中介绍聚合API的内容,可是写着写着发现文章有点过长,不便于阅读,故将聚合API的内容移至下一篇博客中。html
单单介绍理论和API是乏味和低效率的,本文将结合一个实际的例子来介绍这些API。下表是本文数据表的表结构,表名(type)为“student”。注意,studentNo是本表的id,也就是_id字段的值与studentNo的值保持一致。java
字段名 | 字段含义 | 类型 | 是否能被索引 | 备注 |
---|---|---|---|---|
studentNo | 学号 | string | 是 | id |
name | 姓名 | string | 是 | |
sex | 性别 | string | 是 | |
age | 年龄 | integer | 是 | |
birthday | 出生年月 | date | 是 | |
address | 家庭住址 | string | 是 | |
classNo | 班级 | string | 是 | |
isLeader | 是否为班干部 | boolean | 是 |
上面的表结构所对应的mapping以下,将数据保存在索引名为“student”的索引中。正则表达式
{
"student": { "properties": { "studentNo": { "type": "string", "index": "not_analyzed" }, "name": { "type": "string", "index": "not_analyzed" }, "male": { "type": "string", "index": "not_analyzed" }, "age": { "type": "integer" }, "birthday": { "type": "date", "format": "yyyy-MM-dd" }, "address": { "type": "string", "index": "not_analyzed" }, "classNo": { "type": "string", "index": "not_analyzed " }, "isLeader": { "type": "boolean" } } } }
索引中保存的数据以下,下面介绍的全部API都将基于这个数据表。sql
studentNo | name | male | age | birthday | classNo | address | isLeader |
---|---|---|---|---|---|---|---|
1 | 刘备 | 男 | 24 | 1985-02-03 | 1 | 湖南省长沙市 | true |
2 | 关羽 | 男 | 22 | 1987-08-23 | 2 | 四川省成都市 | false |
3 | 糜夫人 | 女 | 19 | 1990-06-12 | 1 | 上海市 | false |
4 | 张飞 | 男 | 20 | 1989-07-30 | 3 | 北京市 | false |
5 | 诸葛亮 | 男 | 18 | 1992-04-27 | 2 | 江苏省南京市 | true |
6 | 孙尚香 | 女 | 16 | 1994-05-21 | 3 | false | |
7 | 马超 | 男 | 19 | 1991-10-20 | 1 | 黑龙江省哈尔滨市 | false |
8 | 赵云 | 男 | 23 | 1986-10-26 | 2 | 浙江省杭州市 | false |
ES中的查询很是灵活,为用户提供了很是方便而强大的API。我的以为ES的调用接口设计得很是好,全部接口合理且风格一致,值得好好研究!shell
ES为用户提供两类查询API,一类是在查询阶段就进行条件过滤的query查询,另外一类是在query查询出来的数据基础上再进行过滤的filter查询。这两类查询的区别是:数据库
query和filter能够单独使用,也能够相互嵌套使用,很是灵活。api
下面的状况下适合使用query查询:缓存
(1)Match All Querymarkdown
查询全部的数据,至关于不带条件查询。下面的代码是一个典型的match_all查询的调用方式。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "match_all": {} } } '
查询结果以下。其余全部的查询都是返回这种格式的数据。
{
"took": 156, // 查询耗时(毫秒) "timed_out": false, // 是否超时 "_shards": { "total": 5, // 总共查询的分片数 "successful": 5, // 查询成功的分片数 "failed": 0 // 查询失败的分片数 }, "hits": { "total": 8, // 本次查询的记录数 "max_score": 1, // 查询全部数据中的最大score "hits": [ // 数据列表 { "_index": "student", // 数据所属的索引名 "_type": "student", // 数据所属的type "_id": "4", // 数据的id值 "_score": 1, // 该记录的score "_source": { // ES将原始数据保存到_source字段中 "studentNo": "4", "name": "张飞", "male": "男", "age": "20", "birthday": "1989-07-30", "classNo": "3", "isLeader": "F" } }, { …… // 其余的数据格式相同,就不列出来了 } ] } }
查询时,你会发现不管数据量有多大,每次最多只能查到10条数据。这是由于ES服务端默认对查询结果作了分页处理,每页默认的大小为10。若是想本身指定查询的数据,可以使用from和size字段,而且按指定的字段排序。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "match_all": {} }, "from": 2, // 从2条记录开始取 "size": 4, // 取4条数据 "sort": { "studentNo": { // 按studentNo字段升序 "order": "asc"// 降序为desc } } } '
注意:不要把from设得过大(超过10000),不然会致使ES服务端因频繁GC而没法正常提供服务。其实实际项目中也没有谁会翻那么多页,可是为了ES的可用性,务必要对分页查询的页码作必定的限制。
(2)term query
词语查询,若是是对未分词的字段进行查询,则表示精确查询。查找名为“诸葛亮”的学生,查询结果为学号为5的记录。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "term": { "name": "诸葛亮" } } } '
(3)Bool Query
Bool(布尔)查询是一种复合型查询,它能够结合多个其余的查询条件。主要有3类逻辑查询:
查找2班的班干部,查询结果为学号为5的记录。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "bool": { "must": [ { "term": { "classNo": "2" } }, { "term": { "isLeader": "true" } } ] } } } '
(4)Ids Query
id字段查询。查询数据id值为1和2的同窗,因为id的值与studentNo相同,故查询结果为学号为1和2的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "ids": { "type": "student", "values": [ "1", "2" ] } } } '
(5)Prefix Query
前缀查询。查找姓【赵】的同窗,查询结果是学号为8的赵云。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "prefix": { "name": "赵" } } } '
(6)Range Query
范围查询,针对date和number类型的数据。查找年龄到18~20岁的同窗,查询结果是学号为三、四、五、7的记录。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "range": { "age": { "gte": "18", // 表示>= "lte": "20" // 表示<= } } } } '
实际上,对于date类型的数据,ES中以其时间戳(长整形)的形式存放的。
(7)Terms Query
多词语查询,查找符合词语列表的数据。若是要查询的字段索引为not_analyzed类型,则terms查询很是相似于关系型数据库中的in查询。下面查找学号为1,3的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "terms": { "studentNo": [ "1", "3" ] } } } '
(8)Wildcard Query
通配符查询,是简化的正则表达式查询,包括下面两类通配符:
查找名字的最后一个字是“亮”的同窗,查询结果是学号为5的诸葛亮。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "wildcard": { "name": "*亮" } } } '
(9)Regexp Query同窗
正则表达式查询,这是最灵活的字符串类型字段查询方式。查找家住长沙市的学生,查询结果为学号为1的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "query": { "regexp": { "address": ".*长沙市.*" // 这里的.号表示任意一个字符 } } } '
下面的状况下适合使用filter查询:
filter和query的查询方式有很多是重叠的,因此本节仅仅介绍API的调用,一些通用的注意的事项就再也不重复了。
(1)Term Filter
词语查询,若是是对未分词的字段进行查询,则表示精确查询。查找名为“诸葛亮”的学生,查询结果为学号为5的记录。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "term": { "name": "诸葛亮", "_cache" : true // 与query主要是这里的区别,能够设置数据缓存 } } } '
filter查询方式均可以经过设置_cache为true来缓存数据。若是下一次刚好以相同的查询条件进行查询而且该缓存没有过时,就能够直接从缓存中读取数据,这样就大大加快的查询速度。
(2)Bool Filter
查找2班的班干部,查询结果为学号为5的记录。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "bool": { "must": [ { "term": { "classNo": "2" } }, { "term": { "isLeader": "true" } } ] } } } '
(3)And Filter
And逻辑链接查询,链接1个或1个以上查询条件。它与bool查询中的must查询很是类似。实际上,and查询能够转化为对应的bool查询。查找2班的班干部,查询结果为学号为5的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "and": [ { "term": { "classNo": "2" } }, { "term": { "isLeader": "true" } } ] } } '
(4)Or Filter
Or链接查询,表示逻辑或。。查找2班或者是班干部的学生名单,查询结果为学号为一、二、五、8的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "or": [ { "term": { "classNo": "2" } }, { "term": { "isLeader": "true" } } ] } } '
(5)Exists Filter
存在查询,查询指定字段至少包含一个非null值的数据。若是字段索引为not_analyzed类型,则查询sql中的is not null查询方式。查询地址存在学生,查询结果为除了6以外的全部学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "exists": { "field": "address" } } } '
(6)Missing Filter
缺失值查询,与Exists查询正好相反。查询地址不存在的学生,查询结果为学号为6的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "missing": { "field": "address" } } } '
(7)Prefix Filter
前缀查询。查找姓【赵】的同窗,查询结果是学号为8的赵云。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "prefix": { "name": "赵" } } } '
(8)Range Filter
范围查询,针对date和number类型的数据。查找年龄到18~20岁的同窗,查询结果是学号为三、四、五、7的记录。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "range": { "age": { "gte": "18", "lte": "20" } } } } '
(9)Terms Filter
多词语查询,查找符合词语列表的数据。若是要查询的字段索引为not_analyzed类型,则terms查询很是相似于关系型数据库中的in查询。下面查找学号为1,3的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "terms": { "studentNo": [ "1", "3" ] } } } '
(10)Regexp Filter
正则表达式查询,是最灵活的字符串类型字段查询方式。查找家住长沙市的学生,查询结果为学号为1的学生。
curl -XPOST "192.168.1.101:9200/student/student/_search" -d ' { "filter": { "regexp": { "address": ".*长沙市.*" } } } '