1.数据采集到hadoop中;node
2.数据在采集过程当中,一部分丢给hdfs,一部分丢该实时的处理系统(kafka)mysql
kafka严格上说并非消息队列,消息队列是符合 gms 规范的,有前后顺序的,kafka不保证顺序,严格意义上说kafka是一个分布式的消息缓存,队列是取一个少一个,而缓存是一直存在的redis
为何要放到kafka呢,由于要对数据进行实时处理,会接一个storm,实时流式计算系统,hadoop是离线系统sql
把数据抽取出来想要的字段,例如上网时间,电话号码,上网的流量,请求的url等,而后存储到Hbase中数据库
Hbase与HDFS有什么区别?缓存
Hbase会根据每一行的主键(rowkey)的字典顺序将数据进行排序,所以只要把行键设计的好,就能够提升查询效率服务器
大量的数据在Hbase存储,在mysql、cracle要就存满了,为何在Hbase能够存储下?socket
Hbase天生就是分布式实现的,mysql是靠人为取分库分表,而Hbase对用户呈现就是一张表,可是这张表本质上的分布在多个服务器上管理的,这样的好处就是这个表能够无限的扩容,像细胞同样分裂表,存储变大后就会分裂出其余表。对用户来讲是透明的扩容分布式
Hbase有一个主服务器Master,从服务器管理分,通常从服务器和datanode放在一块儿oop
Hbase的业务需求比较简单
获取基站数据
把基站信信息放到hafka中,基站数据到kafka中间加入kafka生产者,与基站信息对接采用socket协议
这样kafka汇聚了基站传过来的位置信息与用户相关信息到一块儿 ,kafka中与topic主题,这样互不干扰
进来一下kafka实时数据如何取处理?
redis是内存数据库,快,持久化机制