从业大数据方向,须要掌握哪些技能,具体系统学习路线是什么?

1、大数据相关工做介绍mysql

大数据方向的工做目前主要分为三个主要方向:算法

1. 大数据工程师sql

2. 数据分析师数据库

3. 大数据科学家编程

4. 其余(数据挖掘等)性能优化

2、大数据工程师的技能要求网络

附上大数据工程师技能图:架构

 

整体而言,咱们大数据人才划分为三个大类:负载均衡

1、 大数据开发工程师:

围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深刻掌握如何编写MapReduce的做业及做业流的管理完成对数据的计算,并可以使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,可以实现对平台监控、辅助运维系统的开发。框架


【零基础到实战大数据】获取途径:

请加下面的 :
首先在前面的一组数字是: 410
其次在中间的一组数字是:391
最后位于末尾的一组数字是:744 按照前后顺序组合起来,你就能够找到一个学习的乐园,不要怕麻烦,成功者都是从麻烦崛起的群

经过学习一系列面向开发者的Hadoop、Spark等大数据平台开发技术,掌握设计开发大数据系统或平台的工具和技能,可以从事分布式计算框架如Hadoop、Spark群集环境的部署、开发和管理工做,如性能改进、功能扩展、故障分析等。

2、 大数据运维工程师:

了解Hadoop、Spark、Storm等主流大数据平台的核心框架,熟悉Hadoop的核心组件:HDFS、MapReduce、Yarn;具有大数据集群环境的资源配置,如网络要求、硬件配置、系统搭建。熟悉各类大数据平台的部署方式,集群搭建,故障诊断、平常维护、性能优化,同时负责平台上的数据采集、数据清洗、数据存储,数据维护及优化。熟练使用Flume、Sqoop等工具将外部数据加载进入大数据平台,经过管理工具分配集群资源实现多用户协同使用集群资源。

3、 大数据架构师:

这一角色的要求是综合型的,对各类开源和商用的大数据系统平台和产品的特色很是熟悉,能基于Hadoop、Spark、 NoSQL、 Storm流式计算、分布式存储等主流大数据技术进行平台架构设计,负责企业选用软件产品的技术选型,具体项目中的数据库设计及实现工做,协助开发人员完成数据库部分的程序 ,能解决公司软件产品或者项目开发和运维中与数据库相关的问题; 及时解决项目开发或产品研发中的技术难题,对设计系统的最终性能和稳定性负责。

岗位能力级别定义:

1. 初级:具有基本的大数据技术的基础知识,能够将其视为大数据认证的初学或者入门等级。

2. 高级:大数据认证的高级或者熟练等级,代表该人才具有大数据某一专业方向的基本知识和熟练技能。

3. 专家:具备业界公认的专业大数据技术知识和丰富工做经验。

这里简单介绍几种我认为用的比较多的技术,由于我也仅仅是个大数据爱好者,因此有些观点可能不太标准,建议你对照着看。

1、Hadoop

能够说,hadoop几乎已是大数据代名词。不管是是否同意,hadoop已是大部分企业的大数据标准。得益于Hadoop生态圈,从如今来看,尚未什么技术可以动摇hadoop的地位。

这一块能够按照一下内容来学习:

一、Hadoop产生背景 二、Hadoop在大数据、云计算中的位置和关系 三、国内外Hadoop应用案例介绍 四、国内Hadoop的就业状况分析及课程大纲介绍 五、分布式系统概述 六、Hadoop生态圈以及各组成部分的简介

2、分布式文件系统HDFS

HDFS全称 Hadoop Distributed File System ,它是一个高度容错性的系统,适合部署在廉价的机器上,同时能提供高吞吐量的数据访问,很是适合大规模数据集上的应用。为了实现流式读取文件系统数据的目的,HDFS放宽了一部分POSIX约束。

一、分布式文件系统HDFS简介 二、HDFS的系统组成介绍 三、HDFS的组成部分详解 四、副本存放策略及路由规则 五、NameNode Federation 六、命令行接口 七、Java接口 八、客户端与HDFS的数据流讲解 九、HDFS的可用性(HA)

3、初级MapReduce

这是你成为Hadoop开发人员的基础课程。

MapReduce提供了如下的主要功能:

1)数据划分和计算任务调度:

2)数据/代码互定位:

3)系统优化:

4)出错检测和恢复:

这种编程模型主要用于大规模数据集(大于1TB)的并行运算。

一、如何理解map、reduce计算模型 二、剖析伪分布式下MapReduce做业的执行过程 三、Yarn模型 四、序列化 五、MapReduce的类型与格式 六、MapReduce开发环境搭建 七、MapReduce应用开发 八、熟悉MapReduce算法原理

4、高级MapReduce

这一块主要是高级Hadoop开发的技能,都是MapReduce为何我要分开写呢?由于我真的不以为谁能直接上手就把MapReduce搞得清清楚楚。

一、使用压缩分隔减小输入规模 二、利用Combiner减小中间数据 三、编写Partitioner优化负载均衡 四、如何自定义排序规则 五、如何自定义分组规则 六、MapReduce优化

5、Hadoop集群与管理

这里会涉及到一些比较高级的数据库管理知识,乍看之下都是操做性的内容,可是作成容易,作好很是难。

一、Hadoop集群的搭建 二、Hadoop集群的监控 三、Hadoop集群的管理 四、集群下运行MapReduce程序

6、ZooKeeper基础知识

ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。

一、ZooKeeper体现结构 二、ZooKeeper集群的安装 三、操做ZooKeeper

7、HBase基础知识

HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

与FUJITSU Cliq等商用大数据产品不一样,HBase是Google Bigtable的开源实现,相似Google Bigtable利用GFS做为其文件存储系统,HBase利用Hadoop HDFS做为其文件存储系统;Google运行MapReduce来处理Bigtable中的海量数据,HBase一样利用Hadoop MapReduce来处理HBase中的海量数据;Google Bigtable利用 Chubby做为协同服务,HBase利用Zookeeper做为对应。

一、HBase定义 二、HBase与RDBMS的对比 三、数据模型 四、系统架构 五、HBase上的MapReduce 六、表的设计

8、HBase集群及其管理

一、集群的搭建过程 二、集群的监控 三、集群的管理

10、Pig基础知识

Pig是进行Hadoop计算的另外一种框架,是一个高级过程语言,适合于使用 Hadoop 和 MapReduce 平台来查询大型半结构化数据集。经过容许对分布式数据集进行相似 SQL 的查询,Pig 能够简化 Hadoop 的使用。

一、Pig概述 二、安装Pig 三、使用Pig完成手机流量统计业务

11、Hive

hive是基于Hadoop的一个数据仓库工具,能够将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,能够将sql语句转换为MapReduce任务进行运行。 其优势是学习成本低,能够经过类SQL语句快速实现简单的MapReduce统计,没必要开发专门的MapReduce应用。

一、数据仓库基础知识 二、Hive定义 三、Hive体系结构简介 四、Hive集群 五、客户端简介 六、HiveQL定义 七、HiveQL与SQL的比较 八、数据类型 九、表与表分区概念 十、表的操做与CLI客户端 十一、数据导入与CLI客户端 十二、查询数据与CLI客户端 1三、数据的链接与CLI客户端 1四、用户自定义函数(UDF)

12、Sqoop

Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,能够将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也能够将HDFS的数据导进到关系型数据库中。

一、配置Sqoop 二、使用Sqoop把数据从MySQL导入到HDFS中 三、使用Sqoop把数据从HDFS导出到MySQL中

十3、Storm

Storm为分布式实时计算提供了一组通用原语,可被用于“流处理”之中,实时处理消息并更新数据库。这是管理队列及工做者集群的另外一种方式。 Storm也可被用于“连续计算”(continuous computation),对数据流作连续查询,在计算时就将结果以流的形式输出给用户。它还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。

一、Storm基础知识:包括Storm的基本概念和Storm应用 场景,体系结构与基本原理,Storm和Hadoop的对比 二、Storm集群搭建:详细讲述Storm集群的安装和安装时常见问题 三、Storm组件介绍: spout、bolt、stream groupings等 四、Storm消息可靠性:消息失败的重发 五、Hadoop 2.0和Storm的整合:Storm on YARN 六、Storm编程实战

相关文章
相关标签/搜索