大数据架构与技术选型

时间 2019-11-13

标签数据架构技术选型栏目系统架构繁體版

原文原文链接

了解架构能更清晰地认识每一个组件，数据处理流程，用做流程设计和技术选型sql

Flume 专业的日志收集工具，对象通常是文件类型；数据库

Sqoop 是专门采集结构化数据的，对象通常是数据库；缓存

Kafka 其实是一个 MQ，当作缓存，经常使用于高并发；它既能传输，也能存储，只是存储空间有限，默认 1 G（可配置），且有存储期限，默认 7 天（可配置）；架构

其实还有一些不太经常使用的工具，如 Logstash、DataX并发

MySQL 关系型数据库，存储结构化数据，还有不少其余关系型数据库；框架

Mongodb 非关系型数据库；分布式

HDFS 分布式文件系统，非结构化数据，把文件分布式的存储在集群上；高并发

Hive 是基于 hadoop 的数据仓库，存储结构化数据；Hive 也能够用于计算，因此也在计算层工具

HBase oop

其中 HDFS、Hive、HBase 是大数据经常使用的技术，只是 HBase 用户在减小

MapReduce 基础分布式计算框架；

Hive 基于 MapReduce 的计算框架，它把 sql 转换成了 MapReduce；

Spark 基于内存的计算，计算效率高；

Storm 实时计算，只是它的扩展太少，逐渐被淘汰；

Flink 逐渐火起来；

Tez