一 大数据的框架回顾二 大数据的企业应用javascript
Hadoop
job 提交简图 或 YARN 架构 或 YARN 工做机制 或 job 提交流程
0、job 提交简图html
MapReduce 的 Shuffle 过程介绍java
Shuffle 的本义是洗牌、混洗,把一组有必定规则的数据尽可能转换成一组无规则的数据,越随机越好。
MapReduce 中的 Shuffle 更像是洗牌的逆过程,把一组无规则的数据尽可能转换成一组具备必定规则的数据。
为何 MapReduce 计算模型须要 Shuffle 过程?咱们都知道 MapReduce 计算模型通常包括两个重要的阶段:Map 是映射,负责数据的过滤分发;Reduce 是规约,负责数据的计算归并。
Reduce 的数据来源于 Map,Map 的输出便是 Reduce 的输入,Reduce 须要经过 Shuffle来 获取数据。
从 Map 输出到 Reduce 输入的整个过程能够广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端,在 Map 端包括 Spill 过程,在 Reduce 端包括 copy 和 sort 过程,如图所示:
环形缓冲区简图mysql
Zookeeper
使用 zookeeper 监听服务器节点动态上下线案例面试
Zookeeper 中维护 Kafka 时的存储结构以下:sql
Flume数据库
Flume Agent 内部原理服务器
Flume Agent 的聚合架构
Flume 的负载均衡app
Kafka
Kafka 工做流程1
Kafka 工做流程2
Kafka 高阶消费者 和 低阶消费者
HBase
HBase 架构图
HBase 读数据流程
HBase 写数据流程
Hive
一、HQL 的编写、练习(必定要好好写!!!天天写一条!!!超级重要!!!想进大厂的必备!!!牛客网HQL题库:https://www.nowcoder.com/ta/sql)
二、Hive 的调优:https://www.cnblogs.com/chenmingjun/p/10452686.html
三、数据仓库的理论 + 简单的数仓库搭建
Sqoop
Sqoop 是一款开源的工具,主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递,能够将一个关系型数据库(例如:MySQL,Oracle,Postgres等)中的数据导入到 Hadoop 的 HDFS 中,也能够将 HDFS 的数据导进到关系型数据库中。
Sqoop 的批量导入必需要会,面试常常要问。
DataX
是阿里开源的框架,支持不少数据源之间的转化。可是只开源了单节点的源代码,分布式的代码没有开源。
支持数据库以下:
Spark
应用一:数据仓库的搭建
数据仓库各层图解
数据仓库涉及到的知识点
应用二:产品信息分析
应用三:用于行为分析
应用四:人工智能基础