Spark+Hbase 亿级流量分析实战（日志存储设计）

时间 2019-12-04

标签 spark+hbase spark hbase 流量分析实战日志存储设计栏目 Spark 繁體版

原文原文链接

背景

接着上篇文章百亿级流量实时分析统计 - 数据结构设计咱们已经设计好了日志的结构，接下来咱们就准备要开始撸代码了，我最喜欢这部分的环节了，但是一个上来连就撸代码的程序确定不是好程序员，要不先设计设计流程图？那来吧！！！ nginx

流程图

设计一

用户发起文章操做，发起请求日志
日志将由SLB服务器进行负载到日志打点服务器。
NSA将做为日志收集中心进行存储，也能够使用rsync把节点上的日志同步到日志中心。
做为核心的ETL程序，将要对日志中心上全部节点的数据进行抽取转换加载。
上图中出现的Hbase比较好理解，可是为何要出现Mysql？由于咱们要更细粒度地控制日志的写入时间点，主要用来记录日志时间的offset，后续会有详细的介绍。

设计二

用户发起文章操做，发起请求日志
日志将由SLB服务器进行负载到日志打点服务器。
Filebeat 收集节点日志到Kafka，主要是用来日志削峰使用。 **或者：**使用nginx直接将日志写入kafka,由于nginx也是生产级别的。
ETL 将消费Kafka 数据并写到Hbase。
与设计一相同

日志中心

日志中心的存储会是下面这样程序员

├── log
│   ├── 2019-03-21
│   │   ├── 111.12.32.11
│   │   │   ├── 10_01.log
│   │   │   └── 10_02.log
│   │   ├── 222.22.123.123
│   │   │   ├── 0_01.log
│   │   │   ├── 0_02.log
│   │   │   └── 0_03.log
│   │   └── 33.44.55.11
│   ├── 2019-03-22
│   └── 2019-03-23
复制代码

每分钟每节点会生成一个文件。
一天一个文件夹。
这样子的设计能够方便查错。

日志内容以下sql

{"time":1553269361115,"data":{"type": "read","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
{"time":1553269371115,"data":{"type": "comment","content":"666,支持一下","aid":"10000","uid":"4229d691b07b13341da53f17ab9f2416","tid": "49f68a5c8493ec2c0bf489821c21fc3b","ip": "22.22.22.22"}}
复制代码

敲定方案

选择设计一 由于咱们就看上了第5点,在线上业务稳定了一年的使用状况来看，这种方案是可行的。bash

在下篇文章中，咱们将真实开始撸咱们的黄金代码了，全部程序将使用scala进行实现，你想问我什么吗？四个字：服务器