大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用

时间 2019-12-13

标签数据技术平台分析项目框架回顾企业应用繁體版

原文原文链接

一大数据的框架回顾二大数据的企业应用javascript

一大数据的框架回顾

Hadoop
job 提交简图或 YARN 架构或 YARN 工做机制或 job 提交流程
0、job 提交简图html

一、YARN 架构

二、YARN 工做机制

三、job 提交流程源码解析图解

MapReduce 的 Shuffle 过程介绍java

　　Shuffle 的本义是洗牌、混洗，把一组有必定规则的数据尽可能转换成一组无规则的数据，越随机越好。
　　MapReduce 中的 Shuffle 更像是洗牌的逆过程，把一组无规则的数据尽可能转换成一组具备必定规则的数据。
　　为何 MapReduce 计算模型须要 Shuffle 过程？咱们都知道 MapReduce 计算模型通常包括两个重要的阶段：Map 是映射，负责数据的过滤分发；Reduce 是规约，负责数据的计算归并。
　　Reduce 的数据来源于 Map，Map 的输出便是 Reduce 的输入，Reduce 须要经过 Shuffle来 获取数据。
　　从 Map 输出到 Reduce 输入的整个过程能够广义地称为 Shuffle。Shuffle 横跨 Map 端和 Reduce 端，在 Map 端包括 Spill 过程，在 Reduce 端包括 copy 和 sort 过程，如图所示：

环形缓冲区简图mysql

Zookeeper
使用 zookeeper 监听服务器节点动态上下线案例面试

Zookeeper 中维护 Kafka 时的存储结构以下：sql

Flume数据库

Flume Agent 内部原理服务器

Flume Agent 的聚合架构

Flume 的负载均衡app

Kafka

Kafka 工做流程1

Kafka 工做流程2

Kafka 高阶消费者和低阶消费者

HBase

HBase 架构图

HBase 读数据流程

HBase 写数据流程

Hive
一、HQL 的编写、练习（必定要好好写！！！天天写一条！！！超级重要！！！想进大厂的必备！！！牛客网HQL题库：https://www.nowcoder.com/ta/sql）
二、Hive 的调优：https://www.cnblogs.com/chenmingjun/p/10452686.html
三、数据仓库的理论 + 简单的数仓库搭建

Sqoop
Sqoop 是一款开源的工具，主要用于在 Hadoop(Hive) 与传统的数据库 (mysql,postgresql,…) 间进行数据的高校传递，能够将一个关系型数据库（例如：MySQL,Oracle,Postgres等）中的数据导入到 Hadoop 的 HDFS 中，也能够将 HDFS 的数据导进到关系型数据库中。

Sqoop 的批量导入必需要会，面试常常要问。

DataX
是阿里开源的框架，支持不少数据源之间的转化。可是只开源了单节点的源代码，分布式的代码没有开源。

支持数据库以下：

Spark

二大数据的企业应用

应用一：数据仓库的搭建
数据仓库各层图解

数据仓库涉及到的知识点

应用二：产品信息分析

应用三：用于行为分析

应用四：人工智能基础

大数据技术之_27_电商平台数据分析项目_01_大数据的框架回顾 + 大数据的企业应用

一 大数据的框架回顾

二 大数据的企业应用

一大数据的框架回顾

二大数据的企业应用