kibana 是一个数据显示工具,一般和 es 配套出现html
7.4 的版本中开发工具(Dev Tool)里新提供了 grok 正则验证工具能够很好的验证 logstash 的匹配语法是否正确。java
你知道一本书中,做者那些词用的最多吗?这些词在书籍中是否很重要。git
es 默认的分词器主要针对的是英文的,因此咱们须要安装中文分词,如下以 ik 分词器为例进行安装(网上的教程有些我以为没有细说)github
经过 GitHub 获取插件包。shell
经过 kibana 开发工具设置 es 的字段使用 ik 分词器, 如下是个人执行服务器
PUT article { "mappings": { "properties": { "id": { "type": "long" }, "title": { "type": "text" }, "author": { "type": "text" }, "content": { "type": "text", "analyzer": "ik_max_word", "search_analyzer": "ik_smart", "fielddata": true } } } } POST article/_doc/1 { "id": 1, "title": "做为高级Java,你应该了解的Linux知识", "author": "小姐姐的味道", "content": "做为一个javaer,我之前写过不少关于Linux的文章。但通过多年的观察,发现其实对于大部分人,有些东西压根就用不着。用的最多的,就是到线上排查个问题而已,这让人非常苦恼。那么,咱们就将范围再缩小一下。...." } POST article/_doc/2 { "id": 2, "title": "不停服! 怎么迁移数据", "author": "草堂笺", "content": "前言数据迁移时, 为了保证数据的一致性, 每每伴随着停服, 此期间没法给用户提供服务或只能提供部分服务. 同时, 为了确保迁移后业务及数据的正确性, 迁移后测试工做也要占用很多时间. 如此形成的损失是比较大的....." } PUT article/_doc/2 { "id": 2, "title": "testing不停服! 怎么迁移数据", "author": "草堂笺", "content": "前言数据迁移时, 为了保证数据的一致性, 每每伴随着停服, 此期间没法给用户提供服务或只能提供部分服务. 同时, 为了确保迁移后业务及数据的正确性, 迁移后测试工做也要占用很多时间. 如此形成的损失是比较大的....." } DELETE article/_doc/2 GET article/_search { "size": 0, "aggs": { "messages": { "terms": { "size": 1000, "field": "content", "include": "[\u4E00-\u9FA5]{2,}", "exclude": "一.*" } } } }
添加自定义单词网络
ik 的中文词库并不太完整,有些须要本身的定义它没有的词。如富叔堡、嘤嘤怪、全员恶人等网络名词。app
以图表的形式展现词频数据elasticsearch
一、建立索引ide
二、建立图表
下面咱们对词频进行过滤处理,不匹配“一”开头的词,以及内容为两个字的词。若是以为词太少能够在大小中进行控制。
图形中并无显示有词频有多少个,咱们能够经过“检查”来查看详细数据,和请求的条件。
这里的数据是经过 logstash 处理后保存的。能够查看我上一篇文章 logstash深刻学习
一、建立索引
二、建立图表
logstash.yml 配置文件最下面 i18n.locale 项进行配置,值为 "zh-CN"
自 7.x 起弃用 types 的概念。由于这样不利于 Lucene 高效压缩文档的能力。