数据科学软件哪家强?秘密都在招聘广告里


全文共2367字,预计学习时长5分钟算法

图片来源:unsplash.com/@markusspiskeapi

2019年以来,数据科学从业人员的需求持续增加,那么各大数据科学软件的流行程度如何呢?哪些是从业人员必需要掌握的“必杀器”?微信

事实上,要想衡量数据科学软件的普及度或市场份额,最好的方法之一就是统计有多少份招聘广告将掌握这些软件做为应聘要求。招聘广告以资金做为支撑,涵盖丰富信息,所以它们或许是衡量各软件流行程度的最佳标准。各类软件职位招聘需求的变化也为咱们预测将来的就业趋势提供了契机。机器学习

Indeed.com是美国最大的招聘网站,拥有最丰富的招聘广告资源,正如其创始人之1、前任CEO保罗·福斯特所说,Indeed.com的主要招聘板块综合了来自1000多家招聘网站的资源——包括Monster、CareerBuilder、HotJobs、Craigslist——同时还包括来自上百家报刊、协会以及公司网站的信息。Indeed.com的搜索功能也异常强大,它曾经还会绘制就业趋势图,但这个功能显然已经下线了。oop

用Indeed.com 来搜索职位垂手可得,但用它从大量招聘信息中公平地搜索并对比软件却并不容易。有些软件只应用于数据科学领域(例如SPSS、Apache Spark),而另一些除了数据科学领域,还更大量地应用于与报告撰写相关的职位(例如SAS、Tableau)。通用语言(例如Python、C、Java)在数据科学工做中应用十分普遍,但大部分使用这些语言的职位实际上和数据科学并没有关联。学习

图片来源:unsplash.com/@lebenslauf大数据

为了让结果更加公平,本文设计了一种方法,使搜索只集中于数据科学岗位范围内。网站

本文的职位数据采集自2019年5月27日和2017年2月24日。有人可能会认为来自一天内的数据样本缺少稳定性,但Indeed.com 涵盖了极其丰富的岗位资源,这使其数据具有了一惯性。在分析2014年和2017年的数据时,咱们将r=0.94, p=0.002。ui

从图1a中可知,Python的招聘需求量最大,有27374个职位;SQL紧随其后,为25877个;接下来是Java和亚马逊的机器学习软件ML,都有17000多个岗位,共占总需求量的25%左右;R和C的需求量为13000左右。人工智能

人们常常将R和Python相提并论,但对于数据科学职位来讲,对R的需求仅为Python的一半。固然,这并不表明这些岗位类型是相同的,数据分析人员仍然更倾向于使用R,而机器学习的相关工做者则偏心Python。但毋庸置疑的是,Python正在变得愈来愈热门。

从Hadoop往下,招聘需求量开始缓慢减小。人们也常常将R与SAS做对比,但从图中来看,前者需求量为13800,后者仅为8123。

因为样本数量过于庞大,图中最底部的H2O需求量看起来几乎为零,但实际上,其对应的职位数量为257。

图1a. 流行度较高的软件所对应数据科学职位需求量

图1b将流行度较低的软件单独列了出来,以便进一步做比较。其中Mathematica 和Julia位列前两名,需求量各为219左右。FORTRAN语言虽然已经很古老,但仍然以195的需求量活跃在数据科学领域。开放源码软件WEKA和IBM公司的Waston紧随其后,都在185左右。从XGBOOST再往下,各软件需求量呈现出稳定的降低趋势。

有一些软件使用的是工做流接口,例如Enterprise Miner、KNIME、RapidMiner以及SPSS Modeler,这些软件需求量都在50-100。若是用其它方式来衡量,RapidMiner都会领先于和它十分类似的KNIME,但在这张表中,后者需求量比前者多了一倍。Alteryx一样使用工做流接口,但其需求量却远远领先于其余同类软件,并以901的需求量出如今表1a中。

图1b. 流行度较高的软件所对应数据科学职位需求量(少于250)

在图1b中,底端的软件招聘需求量看似为零,实际上也确实几乎为零,从Systat往下,全部的软件需求量都在10如下。

值得注意的是,两张图中的数值都采集自单个时间点,因此因为流行度较高的软件天天的需求量变化都不会太大,图1a中的相对排名在将来一两年内都不可能发生太大波动。但图1b中的软件需求量都较低,所以这一排名每个月均可能出现变化。不过期间越长,图1b中的软件相对于图1a中的软件的相对排名也将越趋于稳定。

如今来看从2017年到如今(2019年)各软件招聘量的变化。图1c列出了部分软件在这两年内需求量的变化百分比。这些软件在2017年的需求量都至少为100,不然假如某一软件在2017年的需求量为1,而在2019年增长为5,其增加率高达500%,但这一数据实际上并无什么意义。图中标红的为愈来愈热门的、需求量有所增加的软件,而标蓝的则是需求量有所减小的软件。

图1c. 2017年至2019年软件招聘需求量变化百分比(仅限于2017年需求量大于100的软件)

谷歌旗下的深度学习软件Tensorflow以523%的增加率位居第一;数据流分析软件Apache Flink以289%的增加率紧随其后;接下来是增加率为150%的H2O;Caffe是另外一款深度学习软件,其增加率为123%,这反映出人工智能算法的普及度已很高。

虽然增加率“只有”97%,但Python实际上已经十分热门,其需求量在两年间增加了13471,这一数量已经超过了许多其余软件需求量的总和。

Tableau增加的需求量为4784,这一数字相对来讲虽然较小,但其增加趋势和Python也大体类似。

从Julia往下,软件需求量的增加率开始缓慢降低。出人意料的是,SAS和SPSS的增加率虽然较低,分别为6%和1%,但整体上仍然呈现出增加的趋势。


留言 点赞 关注

咱们一块儿分享AI学习与发展的干货

欢迎关注全平台AI垂类自媒体 “读芯术”

(添加小编微信:dxsxbb,加入读者圈,一块儿讨论最新鲜的人工智能科技哦~)

相关文章
相关标签/搜索