大数据学习计划

时间 2019-12-08

标签数据学习计划繁體版

原文原文链接

大数据如此火热的如今，想必许多小伙伴都想要加入这个行业。也是咱们今天就要拿出收藏已久的大数据学习计划。帮助你不走弯路，迈向大数据javascript

1html

大数据应用离不开基础软件的支撑，且大部分大数据组件部署在 Linux 操做系统上的用户空间，也有不少组件也借鉴了Linux 操做系统的一些设计精髓，因此 Linux 既是大数据的强力支撑，也是不少性能问题的支撑者。java

同时数据库的相关知识也是必要的基础，熟悉 MySQL 数据库的安装与部署，还有备份和恢复等都是重点。web

因此在第一部分的学习中咱们须要达到如下目标：算法

一、经过对 Linux 操做系统体系结构、服务管理、包管理、NTP 协议时间服务器、关系型数据库理论和 MySQL 数据库等相关知识的学习，sql

掌握大部分安装部署 Hadoop 集群操做系统层面的技能，为后续搭建 Hdoop 集群、对比 RDBMS 与 NoSQL 数据库打基础。数据库

二、经过对 Linux 文件系统、（大数据学习群142974151】内核参数、内存结构、以及 Java 虚拟机等相关知识的学习，为后续学习分布式文件系统， Hadoop 集群优化扫清操做系统层面知识的障碍编程

2安全

Hadoop 由许多元素构成。其最底部是HDFS，它存储 Hadoop 集群中全部存储节点上的文件。HDFS(对于本文)的上一层是MapReduce 引擎，经过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的全部技术核心。服务器

还有Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统，Flume支持在日志系统中定制各种数据发送方，用于收集数据。在大数据中也起到必定做用。

本模块经过学习HDFS，YARN(MapReduce)Spark 等核心组件，了解Hadoop 的基本运行框架。

因此在第二部分的学习中咱们须要达到如下目标：

一、

搭建单节点模拟分布式集群，熟悉 HDFS 命令;

掌握 HDFS 体系结构，读写流程，能 dump HDFS 元数据文件;

理解 Flume 组件架构，并能用 Flume 向 HDFS 平台导入文本日志;

二、

搭建多节点、可扩展集群;

部署 HDFS HA 架构;

理解并实现 Hadoop YARN 的多租户架构

掌握 Zookeeper 组件原理;

掌握 Hadoop 集群优化路径;

传统数据仓库在面对更大规模数据时显得力不从心，在寄但愿于大数据平台时，MapReduce 编程门槛让不少数据分析师望而却步，而Hive是基于Hadoop的一个数据仓库工具，能够将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，能够将sql语句转换为MapReduce任务进行运行。其优势是学习成本低，大数据学习kou群74零零加【41三八yi】能够经过类SQL语句快速实现简单的MapReduce统计，没必要开发专门的MapReduce应用，十分适合数据仓库的统计分析。

本模块经过学习 Hive、Impala 等大数据 SQL 分析组件，让用户将隐匿在泥沙之下的数据价值挖掘出来。

因此在第三部分的学习中咱们须要达到如下目标：

一、

安装部署 Hive;

理解 Hive 架构及执行原理 ;

Hive 的优化(分区、桶) ;

Hive SQL 语句优化;

Hive 常见故障诊断;

在上个模块中，OLAP 类型的需求获得了很好的解决方案，即针对数据查询分析的应用。可是这些组件对于数据的随机删改并不擅长。针对此种 OLTP 类型应用，大数据生态系统中有另一类组件处理这样的问题，那就是 NoSQL 家族。这部分将介绍 NoSQL 的数据模型和分类，着重讲述最具表明的 HBase。

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括:配置维护、名字服务、分布式同步、组服务等。在本部分也会涉及。

因此在第四部分的学习中咱们须要达到如下目标：

理解HBase 体系结构水平扩展的优点; 部署 HBase ;

设计 HBase 表;

在这里我仍是要推荐下我本身建的大数据学习交流qq裙： 142974151，裙里都是学大数据开发的，若是你正在学习大数据，欢迎你加入，你们都是软件开发党，不按期分享干货（只有大数据开发相关的），包括我本身整理的一份2019最新的大数据进阶资料和高级开发教程，欢迎进阶中和进想深刻大数据的小伙伴

理解 zookeeper 在 HBase集群中的做用;

掌握 HBase Schema 设计注意事项;

理解 HBase 协处理器;

掌握 HBase 备份恢复步骤;

SQL 语句属于声明式编程语言，这种 Relational 方式擅长处理结构化数据。大数据的数据来源种类繁多，数据类型多种多样，SQL 并不能处理全部问题。因此须要用 procedural 方式，即编程方式处理复杂多变的数据类型和应用。本章介绍 MapReduce、Spark编程模型，着重讲述利用 Python 在 Spark 平台作数据转换和分析。

因此在第五部分的学习中咱们须要达到如下目标：

能指出 Spark 组件的产生背景;

掌握 Spark 与 RDD 的关系;

了解 RDD 使用场景，熟悉 RDD 操做; 使用 RDD 方法作日志分析;

理解 Spark-on-YARN 运行原理;

掌握数据持久化方法。

理解 Spark 共享变量及使用场景;

在程序中使用广播变量和累加器;

理解 Spark SQL 的产生的历史背景;

建立 DataFrame 和 DataSet;

使用 SparkSQL 关联结构数据与非机构化数据 ;

可以利用 Spark 实现客户群的分类;

前面5部分学习完毕以后，对于大数据平台的大部分问题，相比你们都会有思路去解决了。系统稳定运行以后，就要考虑运行的好很差，快不快。本模块针对 HDFS 数据、HBase 数据、实时抓取数据加索引，以及 Spark Streaming 流式处理技术作重点介绍，为大数据处理提速

因此在第六部分的学习中咱们须要达到如下目标：

. 理解 Solr Cloud 组件架构及原理;

掌握 MapReduce 对静态数据索引过程;

掌握 Flume 对实时数据索引过程;

理解 HBase 索引实现原理-协处理器; 掌握 HBase Lily 对 HBase 数据索引过程;

介绍 Cloudera Search

了解流式计算的基本概念及分类方式;

掌握 Flume、Kafka 组件的架构及原理;

用 Flume、Kafka、Spark Streaming 搭建简单的流式处理应用;

学会使用状态保持及滑动窗口等流式计算特性;

事物的原理和规律隐藏在纷繁杂乱的数据中，如何从数据中将他们挖掘出来服务生产生活，大数据的核心价值体如今此。本模块咱们一块儿学习数据科学的数学基础、机器学习的算法。大数据学习kou群74零零加【41三八yi】由于Spark 正在取代 MapReduce 成为大数据平台数据处理的全新引擎，它也使得在大数据环境下高效的运用数据科学成为可能，因此咱们着重介绍基于 Spark 的机器学习的实现，把握大数据的发展趋势，步入数据科学的殿堂。

因此在第七部分的学习中咱们须要达到如下目标：

一、掌握数据科学的数据基础，掌握统计学基础知识。

二、掌握机器学习理论; 掌握推荐系统和决策系统原理

三、掌握 Spark Mllib 组件架构; 利用 Spark Mllib 实现推荐器; . 学会引用经常使用机器学习算法。

选修

1.大数据Hadoop生态系统的组建大部分是java编写，但95%的企业是直接使用不会修改组建，因此培训课程包含冗长的java是不科学的。不过对于Java能作到一点了解仍是不错的。

2.web开发html及javascript，只是在大数据可视化阶段才会用到，并非大数据课程的核心内容，因此有须要的同窗再去学习吧。

3.R 语言具备丰富的统计方法，大多数人使用R语言是由于其具备强大的统计功能， R 语言内部包含了许多经典统计技术的环境。经过对 R 语言基础知识的学习，了解 R 数据分析的通用流程。同时学习R 语言在 Spark 计算框架的基本使用方法，能够为实现更强大的数据分析打基础。

4.大数据时代须要数据开放，同时又须要保障敏感数据的安全。企业如何保障数据中心的安全性成为即将面临的重大课题，因此 Hadoop 集群的安全机制能够学习一下。