项目讲解1

时间 2020-04-07

标签项目讲解繁體版

原文原文链接

1.数据采集到hadoop中；node

2.数据在采集过程当中，一部分丢给hdfs，一部分丢该实时的处理系统(kafka)mysql

kafka严格上说并非消息队列，消息队列是符合 gms 规范的，有前后顺序的，kafka不保证顺序，严格意义上说kafka是一个分布式的消息缓存，队列是取一个少一个，而缓存是一直存在的redis

为何要放到kafka呢，由于要对数据进行实时处理，会接一个storm，实时流式计算系统，hadoop是离线系统sql

把数据抽取出来想要的字段，例如上网时间，电话号码，上网的流量，请求的url等，而后存储到Hbase中数据库

Hbase与HDFS有什么区别？缓存

Hbase会根据每一行的主键（rowkey)的字典顺序将数据进行排序，所以只要把行键设计的好，就能够提升查询效率服务器

大量的数据在Hbase存储，在mysql、cracle要就存满了，为何在Hbase能够存储下？socket

Hbase天生就是分布式实现的，mysql是靠人为取分库分表，而Hbase对用户呈现就是一张表，可是这张表本质上的分布在多个服务器上管理的，这样的好处就是这个表能够无限的扩容，像细胞同样分裂表，存储变大后就会分裂出其余表。对用户来讲是透明的扩容分布式

Hbase有一个主服务器Master，从服务器管理分，通常从服务器和datanode放在一块儿oop

Hbase的业务需求比较简单

获取基站数据

把基站信信息放到hafka中，基站数据到kafka中间加入kafka生产者，与基站信息对接采用socket协议

这样kafka汇聚了基站传过来的位置信息与用户相关信息到一块儿，kafka中与topic主题，这样互不干扰

进来一下kafka实时数据如何取处理？

redis是内存数据库，快，持久化机制