一篇文章看懂大数据分析就业前景及职能定位

大数据分析

Overview:前端

  1. java

  2. 基本概念python

  3. DS的职能要求算法

  4. DE的职能要求后端

  5. 总结服务器

1、序

今天主要给你们好好说说python的发展方向,这篇文章也是藏了很久了,群里各类问怎么学,大数据分析怎么学,爬虫怎么入门,说实在的,你关注我号久一点,都知道有那么几篇文章是专门给入门看的,还有几篇是资料总结的。会找的都能找到。架构

可是一篇可能不够,由于我想尽量的给你们剖析行业状况,让你们在作选择的时候不至于还不知道这是干啥的,只知道这个很火。app

今天就先给你们讲大数据分析工程师。运维

2、基本概念

对于一大部分想转行作IT,作python的,都是冲着大数据分析来的,那你知道大数据分析的是啥吗?你知道大数据分析的岗位职能分配状况吗?工具

若是这些都答不上来的话,那就别追风口,若是盲目的跟风,只会让你进来找不着北,到头来,浪费1年时间,还的回去干老本行。

首先,咱们常常叫的大数据分析师有两种岗位定位:

  • 大数据科学家,Data Scientist,DS

  • 大数据工程师,Data Engineer,DE

从这两个单词里,你就能看出端倪了,那接下来就以我在普华永道的工做经历告诉你,这二者的区别,以及工做内容划分。

3、DS职能要求

1. 专业知识

DS的职能是算法分析,是基于对行业背景的了解帮助客户做出预期计算。而这里面就会涉及到不少专业知识,俗称统计分析。

和pwc同事共事的时候,我常常向他们讨教关于DS的一些事情,再加上一块儿作项目,分工明确,也天然对DS更了解一些。我见过的DS都是硕士毕业,还都是全美TOP10的学校,要么博士。

不是学历歧视,是你要作这事情,就得要这点本事,你没有7年,你的专业知识支撑不了你作DS。若是你不理解这句话,我给你们举个例子:

你们都读太小学(就怕我说都读太高中,你说你初中毕业为了生存,就出来打拼了)不考虑天才好么,咱们都是小老百姓。而后解题思路就是按照老师教的,而思路只局限在一元二次方程组,二元一次方程组,而读过大学的,他可能直接用积分就给你解出来了;几何题都作过对么,几何题难的是什么?作辅助线啊!辅助线出来,人人都是华罗庚,还喜欢后面跟一句,我要是画出来了,我也会作。

这是什么?就是知识边界啊。你所知道的星辰大海,只是别人的沧海一粟。因此专业知识必不可少。

2. 行业背景

接下来DS还须要有某个领域的行业背景,俗称BK,background knowledge。你可能会奇怪为何还要这。

由于大数据分析都是针对行业来作的,那么行业内的行话,套路,潜规则,生存法则都是不同的,你要对公司作预期分析,你就得对行业有一个基本认识,甚至深刻了解。

咱们之前的DS,贯穿各大实体行业,有保险的,医疗的,建筑的,心理的,法律的等等。为何要招那么多DS,就是由于每一个DS都有本身擅长的几个领域。必定的BK可以帮助DS在面对数据的时候快速的做出信息过滤,可以在聊需求的时候,快速给出反馈。这才是价值。

3. 工具

到了第三块,才是大家关心的python,为何把python放最后?由于python只是一个工具。对于开发者来讲,python多是大家的底,但对于DS来讲,python只是一个交通工具。

之前用excel VB,后来用java,如今还有人在用R,不过更多的仍是python。这就比如说,如今若是你想去某个地方,坐地铁能到的,基本都坐地铁,由于又快又方便。那没有地铁的时候呢?只能作公交。没有公交的时候呢?就得骑自行车,或者走路。

因此DS历来不会关心代码运行效率,他们关心的是编码效率。而python正好又是编码效率极高的。

因此你要和我说你在外面培训了4个月的大数据分析后,就想作DS了,那请你再考虑考虑。

4、DE职能要求

相对DS,DE就比较杂了,作的事情也多。就拿我来讲,当时中国data team 就3个,2个DS,你说我是DE也能够,说我是打杂的也能够。由于DS只负责算法输出,而其他的都是我来作。

大家想一想,一个项目光有算法能行吗?谁去执行它,它要如何被外部调用?脏数据的清洗工做谁来作?还有不少不少的事情须要你考虑。

那我一个个来讲,首先DE最重要的事情就是辅助DS清洗数据,咱们叫data cleaning。由于不少时候从外部拿到的数据,不管是买来的,爬来的,仍是已有的,都是原始数据,DS须要对这部分数据作一个预处理,不然很容易污染样本数据。那DE的工做,很重要的一部分就是去清洗数据。至于规则是你和DS讨论的,没有一个固定的模版。

其次,刚刚说到的数据来源,有一个是爬来的,因此你还得会爬虫。关于爬虫部分的内容我会另起一篇,给你们好好讲讲。当时我想作,但没有作的一部分就是爬虫,由于全美有不少公开数据是能够去获取的,当时我想作的是分类,包括清洗、过滤、入库、展现。没来得及作。

若是你会爬虫,DS就会很高兴了,由于他们不用为没有数据犯愁了,你要知道,对于DS来讲,数据的数量和质量都是他们关心的东西。而老板更是了,由于DS要数据,他就要花钱去买,若是你是DE你说你能够尝试爬爬看,那老板对你什么见解?

那你若是还会作后端开发就更好了,我固然的主要经历就放在了自动化建设上面。US那边的老板是没有要求作,那我是本着提高生产效率去的,因此是本身给本身加戏了。最后的效果还不错,让我一个任务从一周到1-2分钟,只须要改配置就能够了,固然这个过程是很是痛苦的,咱们前先后后一块儿对需求,review代码。

而后服务端写好了,咱们还能够作前端展现,对于vendor来讲,他们不关心数据怎么来的,他们想看直接的东西,那不就是dashboard吗?这块我也没作,只是开了个头。

后来发现咱们有一个20人的app团队在作这个事情,我确定没有人家20我的作得好,可是起码在他们交付前,咱们data team也能够体现出价值来不是?不然只有等app team作完了,把咱们的数据接入了,老板在看的到。

因此我一直强调,价值是自我实现的,平台给你的是机会,能作多大,都看你本身。前几天还和一个读者说这个事情,我说别和我扯公司规范,流程,在我看来都是借口。

你作运维,必定要等测试代码过了给到你,才能发布,那你为何不能把测试以后的步骤自动化?让测试本身提交jira,而后打钩子,作CI/CD?部署服务器,和我说测试服务器就要手搭,搭好了以后有一套脚本会自动化部署其余服务,那为何不把建立服务器也自动化?你又不是物理机,你是云服务器啊。

题外话了,咱们收回来,因此对于DE来讲,作的事情能够不少。那python就是咱们的武器库了,武器是爬虫、数据清洗、后端、前端等等,要什么拿什么,就看你有多少了。而武器库里还能够加上kettle、tableau、informatica等等,这些只是附加项了。

这个,培训机构4个月培训一个武器,我是相信的。而他们鼓吹的大数据分析师,其实就是DE。不能说绝对,只能说大部分把,给本身留条路……

5、总结

好了,今天说了那么多,但愿能给正在大数据分析路上的你,吃一颗定心丸,该走的路一步不能少。

关注公众号「Python专栏」,后台回复「腾讯架构资源1」,获取由腾讯架构师整理的大数据学习全套资源包!

Python专栏二维码
相关文章
相关标签/搜索