大数据工程师必需要掌握的技能

现现在大数据行业如雨后春笋通常,苗头已起一发不可收拾。国内 IT 、通信、行业招聘中,有 10% 都是和大数据相关,且比例还在上升。巨大的人才缺口直接致使各企业纷纷以高薪聘请大数据人才
这里写图片描述
据最新发布的《大数据人才报告》显示,目前全国的大数据人才仅 46 万,将来 3 - 5 年内,大数据人才的缺口将高达 150 万,而在 BAT 企业招聘的职位里,60% 以上都在招大数据人才。程序员

高薪的背后是人才的紧缺,有机构对一线城市 2018 年国内科技领域热门职位薪酬范围、及跳槽涨幅进行了预测:大数据方向因为人才稀缺度较高,相同工做年限的状况下,大数据工程师的薪资广泛更高,待遇涨幅也会超过其余岗位。web

随着大数据的爆发,中国 IT 业内环境也将面临新一轮的洗牌,不只是企业,更是从业人员转型可遇而不可求的机遇。若是将 IT 人士统一比做一条船上的海员,大数据就是最大的浪潮,借浪潮之势而为之,可成功从 IT 程序员转型成为大数据专家。算法

好了,首先咱们定义本身的角色,对本身有一个精准的认识。好比拿笔者来讲,对本身的定位是:“我是一名计算机专业毕业的工程师,有必定的数学基础(特别是在微积分和线性代数方面),但数理统计和几率论部分不是个人强项。”另外最好别打肿脸充胖子,若是以前没什么经验,认可本身是菜鸟也没事,关键是找准本身的定位。编程

肯定本身的定位后,咱们须要对应到特定的大数据角色,如下是一些基本法则。数据结构

若是您具备良好的编程基础且深刻了解计算机的交互方式以及互联网底层技术原理,但数学和统计学掌握得不深,那么大数据工程多是您从此学习的方向。多线程

若是您有必定的编程基础(掌握一些高级语言,如Python等),同时又有很强的数学功底,那么大数据分析多是您努力的方向。app

学习路线框架

无论您属于以上哪一种角色,有一些大数据理论知识是您必需要掌握的,它们包括但不限于如下这些。编程语言

数据分片与路由:挑一个典型的分区算法去学习,好比一致性哈希算法(https://en.wikipedia.org/wiki/Consistent_hashing)。分布式

备份机制与一致性。

学习国内被奉为“圣经”但在国外也就通常的CAP理论(https://en.wikipedia.org/wiki/CAP_theorem)。

幂等性(Idempotent),不少分布式系统状态管理的基石(https://mortoray.com/2014/09/05/what-is-an-idempotent-function/)。

各类一致性模型:强一致性、弱一致性、最终一致性。

备份机制:主从的叫法已经不怎么流行了,当前更酷的叫法是Leader-Follower模式。

共识协议:国内一般翻译成一致性协议(consensus protocol)。学习常见的Paxos和Raft协议。

算法和数据结构。

LSM:学习其与B+树的区别以及优点是什么。

压缩算法:了解一个主流的压缩算法,好比Snappy、LZ4。另外Facebook最近开源了新一代的压缩算法Zstandard,听说能够完爆一切主流压缩算法。

Bloom Filter过滤器:大数据下O(1)的过滤器。

不管是学习大数据工程仍是大数据分析,这些理论知识都是必要的,由于它们是设计不少分布式系统必备的技能。下面咱们就针对不一样的角色设计不一样的学习路线。

大数据工程师

对于大数据工程师而言,您至少要掌握如下技能。

一门JVM系语言:当前大数据生态JVM系语言类的比重极大,在某种程度上说是垄断也不为过。这里笔者推荐你们学习Java或Scala,至于Clojure这样的语言上手不易,其实并不推荐你们使用。另外,现在是“母以子贵”的年代,某个大数据框架会带火它的编程语言,好比Docker之于Go、Kafka之于Scala。所以笔者这里建议您至少要精通一门JVM系的语言。值得一提的,必定要弄懂这门语言的多线程模型和内存模型,不少大数据框架的处理模式其实在语言层面与多线程处理模式是相似的,只是大数据框架把它们引伸到了多机分布式这个层面。

学习Java或Scala以及Python

语言有了,那么工具呢?固然工具也会有。
这里写图片描述
如今工具也有了,就该开始学习了。学习的话就须要教程,这个时候此处应有教程。

教程这里是没有,可是有资料,大数据资料免费领取,走过路过不要错过。少侠你看这串神秘的数字:862879153,它像不像你待会要去加的那个群。Hadoop,hive,MapReduce,spark,kafka,HBase, ES,Impaala,等等

项目实战包含:用户行为分析(1·2),实时交易监控系统(1·2),推荐系统理论实战(1·2)等等等等,应有尽有。
这里写图片描述
这里写图片描述
这里写图片描述
结束语,DT 时代来得太忽然了,国内发展势头很猛,而大数据相关的人才,却很是的有限,在将来若干年内,都会是供不该求的情况,期望大学培养出合格的大数据人才,有如天方夜谭,所以程序员们,大家的春天到了!
这里写图片描述