环境
- CentOS 6.5 64位
- JDK 1.8.0_20
- Elasticsearch 1.7.3
- LogStash 1.5.6
- Kibana 4.1.4
介绍
-
ElasticSearch是有名的开源搜索引擎,如今不少公司使用ELK技术栈作日志分析,好比新浪使用ELK处理天天32亿条记录,详细的介绍能够查看这里前端
-
咱们的数据量没有新浪那么大,一天正常水平在6千万条左右,多的时候有一个亿条记录,受到新浪案例的启发咱们基于ELK搭建本身的简单数据分析系统,刚开始选择这个的缘由:(1)就我一我的折腾东西, (2)我不会前端,可是ELK中的kibana能够直接利用,(3)Hadoop/Hbase、Storm等大数据栈须要学习成本,短时间内上手难度太大。(4)可用的机器数也是至关屌丝。java
环境搭建
- 须要安装好Java,配置JAVA_HOME,bin目录添加到PATH环境变量
ElasticSearch
- 下载ElasticSearch,而后解压到/opt
- 执行/opt/elasticsearch-1.7.3/bin/elasticsearch -d 就能够在后台启动,可是为了同时管理ELK三个进程,我选择了supervisor作统一管理
- 启动ElasticSearch以后,咱们须要关闭字符串的分词,对于数据分析的需求是不须要的,同时会存在问题,可是看成为搜索引擎的时候,这又是必须的。
关闭字符串的分词 curl -XPUT http://localhost:9200/_template/template_1 -d '{ "template": "*", "settings": { "index.refresh_interval": "5s" }, "mappings": { "_default_": { "_all": { "enabled": true }, "dynamic_templates": [ { "string_fields": { "match": "*", "match_mapping_type": "string", "mapping": { "index": "not_analyzed", "omit_norms": true, "type": "string" } } } ], "properties": { "@version": { "type": "string", "index": "not_analyzed" } } } } }'
Kibana
- 下载Kibana,而后解压到/opt
- 运行/opt/kibana-4.1.4-linux-x64/bin/kibana,一样适用supervisor管理
- 访问http://YourIP:5601便可
Logstash
- 到目前为止咱们尚未数据源
- 下载LogStash,解压到/opt
-
编写以下配置文件linux
咱们的数据来源于kafka中的一个topic,格式是json,输出到elasticsearch的索引,按天变化android
简单的数据分析
- 跑了四个多小时,差很少有890w数据
-
咱们先来看看设备的操做系统版本号(android 4.4.4的设备最多,差很少有300万)json
-
设备型号分布app