原文做者:Andrew Ste
原文连接:How to Become More Marketable as a Data Scientisthtml
这个题目有些莫名其妙,2019年,随着数据科学对业界的影响愈来愈大,数据分析师的市场需求蹭蹭上涨,做为数据分析师的你,在市场上已经很抢手了。撰写本文的时候,光 LinkedIn 上有关数据科学的岗位需求就已经超过 14 万个了。编程
不过,把握业界的脉搏,关注最快、最有效的数据科学解决方案,仍会对你们有所帮助,为此,咱们的数据驱动团队,CV Compiler,分析了数据科学市场职位空缺,界定了 2019 年的数据科学招聘趋势。网络
下图展现了 2019 年雇主对数据科学工程师的技能要求:框架
本图数据引自 Stack Overflow、AngelList 等网站上列出的 300 个数据科学职位空缺。其中一些职位需求里的关键字有重复。机器学习
注:请你们注意,本次调研是从雇主角度出发的,而非从数据科学工程师的角度。
数据科学虽然对业务知识极其重视,但有关框架和支持库的技术与趋势仍值得你们关注。工具
根据《 2018 年大数据分析市场调研报告
》显示,大型企业的大数据采用率从 2015 年的 15%,到 2018 年已经飙升了 59%。能够看出大数据工具的流行趋势在不断增加。若是不考虑 Apache Spark 和 Hadoop(下一段里单独讨论),最流行的是 MapReduce(36个)与 Redshift(29个)。oop
不把 Spark 与云存储的流行趋势考虑在内的话,Hadoop 的时代尚未终结。所以,有些公司仍但愿应聘者熟练应用 Apache Pig(30个)、HBase(32个)等技术,HDFS(20个)仍有岗位需求。学习
随着传感器、移动设备、物联网技术(18个)应用的增加,公司对从实时数据处理中获取信息愈来愈重视,愈来愈多的公司须要雇佣流式分析平台如 Apache Flink(21个)技术人员。大数据
准备数据与选择模型参数是数据科学家的核心任务。数据挖掘(128个)这个词在公司的 JD 里特别流行。有些公司很是重视超参数调优(21个)。不过,数据科学家要特别关注特征工程。在模型构建早期,选择模型最适合的特征,是决定模型是否成功的关键。网站
处理数据,并从中提取有价值的信息是很是重要的能力,不过,数据可视化(55个)也是数据科学家要掌握的重要技能,把工做成果展现给团队成员或客户对数据科学家来讲是相当重要的能力。说到数据可视化工具,做为雇主的公司倾向于 Tableau(54个)。
在这些岗位需求里,还包括了 AWS(86个)、Docker(36个)、Kubernetes。可见,软件开发行业的趋势对数据科学领域的影响也挺大的。
技术很是重要,但在数据科学领域,有些东西比写代码更重要。从“输出数据”中提取信息,好比,生成最终数据集、找出趋势、数据可视化、基于数据进行陈述报告等,这种能力很是重要。此外,还包括用浅显易懂的形式展示分析结果,站在受众的角度看问题 -- 若是听报告的是一群博士生,陈述的方式是一种形式,若是听报告的是 CXO,陈述的方式就是另外一种样子了,他们才不关心编程,他们关心的只有结果与投资回报率。Carla Gentry
数据科学家
Analytical Solution 博主数据快照对了解市场现状颇有用,但并不适于展现发展趋势,只依据数据快照推断将来很难。我要说的是 R 的使用量在持续稳定地降低(MATLAB 也同样),Python 在数据科学家社区里的应用则持续上扬。Hadoop 与大数据榜上有名只不过是由于业界的惯性:Hadoop 将会消亡(没人投资了),大数据也再也不是热炒的话题。要不要花时间再去学习 Scala 如今还不清楚:谷歌官方支持 Kotlin(也是一种 JVM 语言),但它学起来比 Scala 更简单,学习曲线也更陡峭。TensorFlow 的将来也让人堪忧:学术界已经把兴趣转向了 PyTorch,要知道,学术界对数据科学领域的影响远超其它行业。
以上观点仅表明我我的,不表明高德纳咨询公司。Andriy Burkov
高德纳(Gartner)公司 机器学习主管
百页机器学习手册做者PyTorch 利用 GPU 驱动强化学习的 CUDA 张量运算操做。与 TensorFlow 将每一个操做绑定至一个设备不一样,它能够同时在多 GPU 上并行编码。PyTorch 还能够构建动态图,有效地展现递归神经网络。基于 Theano 的 TensorFlow 与基于 Torch 的 PyTorch 相比,只能生成静态图,并且更难学。TensorFlow 对应的开发者与研究人员社区虽然更大,但 PyTorch 构建机器学习仪表盘可视化工具比 TensorBoard 更好,也更简单,并且,PyTorch 在调试与调用 matplotlib 及 Seaborn 进行数据可视化时更 Pythonic。绝大多数 Python 调试工具都能调试 PyTorch,TensorFlow 则有本身的调试工具,tfdbg。
Ganapathi Pulipaka 博士
Accenture 首席数据科学家
50 位顶级技术领袖奖得主数据科学“岗位”与数据科学“职业”不一样。岗位列表阐明了市场所需的技能,但说到职业,就我所知,最重要的技能就是学习能力。数据科学领域发展迅速,若是想一直保持成功,数据科学家必须能快速学习新的技能、工具与专业知识。不断挑战本身,远离温馨区,才是数据科学家要干的事情。
Lon Riesberg
Data Elixir 创始人
前 NASA 职员
数据科学是一个发展迅速、复杂难解的行业,在这个行业里,业务经验与技术能力同等重要。但愿这篇文章让您在这两方面都有所收获,知道哪些技能更有价值,助您在 2019 年变得更抢手!