从分析师到科学家,这份成长秘籍请收好!

全文共4348字,预计学习时长9分钟python

尽管社会对有丰富经验的数据科学家的需求愈来愈大,可是大多时候这份职业的描述仍然模糊不清,招聘经理对数据科学和数据分析或工程之间界限的划定也仍然是宽泛的。算法

数据科学之路(图自Unsplash,亚历山大·巴尔苏科夫)

正如《哈佛商业评论》所言,毋庸置疑,数据科学的热浪已经席卷了大多数行业,这使得数据科学家成为21世纪最火爆的职业。尽管对有丰富经验的数据科学家的需求愈来愈大,可是大多时候对这份职业的描述仍然模糊不清。并且招聘经理对数据科学和数据分析或工程之间界限的划定还是宽泛的。实体工业规范的缺失使许多渴望转变为数据科学角色的专业人士感到困惑。编程

在坚实的数学基础上站稳脚跟服务器

大多机器学习算法创建在多元微积分和线性与非线性代数学上。技艺精湛的数据科学家可以在数学层面上改变计算机程序,从而在真正意义上推进模型性能的改进。拥有数学技能很重要,尤为是统计学和线性代数学。拥有学习理解机器学习技术的能力是成为数据科学家的必要条件。不管是从心理学或数学学位、博士学位仍是在线课程中学到这些东西,这都不重要。微信

通常来讲,科学、技术、工程及数学领域 (STEM) 的学士学位已经提供了机器学习和数据科学技术在数学方面所需知识的基础。许多有抱负的数据科学家因受从事数据科学领域工做必须首先拥有博士学位这一错误观念的影响而止步。目前,有不少数据科学家拥有博士学位,但这不是一条死规定。网络

秘诀1:关注于本身的能力而非背景。运维

做为一个数据科学家,经常要将困难的、无穷尽的且定义不妥的问题拆分为小碎片。这是研究生学习的3到6年间所训练的技能。机器学习

在教会机器前先自我学习工具

一位数据分析师要报告、总结和解释过去的和现存的信息以使其存在商业价值。这一点和数据科学家大不相同,数据科学家的做用是以某种方式总结数据,使之可以对将来或既定决策做出预测。数据科学家的核心任务是训练、测试和优化机器学习算法,因此其技能在机器学习建模方面相当重要。性能

许多发表在媒体和其余平台上的博文对起步者来讲是完美的,可以在你也许想要把握的具体问题上指导你。另外,如下内容也有帮助:

· 毕晓普——《模式识别与机器学习》(许多人将其称做机器学习圣经)

https://cds.cern.ch/record/998831/files/9780387310732_TOC.pdf

· 哈尔·达乌姆——《机器学习教程》

http://ciml.info/

· 迈克尔·尼尔森——《神经网络与深度学习》

http://neuralnetworksanddeeplearning.com/

理论和巨大的方程有时会压得你喘不过气,但这不应将你拒之门外。对我奏效的一个方法是编码的同时进行阅读。好比,尝试建立一个单层感知器(神经网络最简单的一类),从零开始到彻底理解所读的内容。

成套学习:书、课程和代码

秘诀2:将所学的科学方法论应用起来。

有大量有不一样着重点的在线课程和专家,这些理论和实践涵盖了机器学习的基础:

· 这一行业领军人物吴恩达的 Coursera 《机器学习教程》(https://www.coursera.org/learn/machine-learning)。这一课程涵盖了一些基础知识。相比 Octave/Matlab,尝试python中的任务更有意义,由于若是拥有更强的 Python 技能,你会在就业市场中得到更好位置。

· 《人工智能速成课》(https://www.fast.ai/)(《给编码员的机器学习介绍》(http://course18.fast.ai/ml)、《给编码员的深度学习实操》、《给编码员的最新深度学习》),带有极具感染力的心理学教程以及更多实际的重点,由机器学习名家杰里米·霍华德和蕾切尔·托马斯出品。

· 斯坦福大学分享了一系列人工智能课程资料。好比cs224n 《为视觉识别创建卷积神经网络》以及cs231n 《以深度学习进行天然语言处理》。

此处的目的既不在于记住公式和推导方法,也不在于阅读观看每一页书、每一节课。你应该致力于掌握以不一样方式表述的大多模型和算法的基本概念,例如,神经网络中的漏码层、梯度消失、信号/噪声的关系。掌握将问题和基本概念联系起来的能力会使你成为一个受许多雇主欢迎的优秀数据科学家。

进行科学研究

秘诀3:为业务开展和问题解决选择正确的方法论。

数据科学家的真本事是知道应对即将出现的业务问题须要什么技术和机器学习的方法论。在过去的十年间这一领域蓬勃发展,对知识的持续渴望是做为数据科学专家闪光的必然要求。强烈建议读者去阅读不一样科技公司和行业领军人物出版的学术文章和机器学习/人工智能博文。当须要为没有直接解决方案的抽象问题解释提供解决方案的时候,对这类文章的阅读就会起做用。经过研究已有解决方案寻找正确的解决方案,是这一职业80%的工做。安德烈·卡帕斯在斯坦福cs231n课程上说得好:“不要逞英雄。”商业世界但愿你可以迅速交付(或放弃),所以若是有可能你不该该白费力气作重复的事,而是应该站在巨人的肩膀上。

“若是说我比别人看得更远,那是由于我站在巨人的肩膀上。”艾萨克·牛顿(1675)
图源https://me.me/i/3487477

用上编程技能

数据分析师以某种方式使用数据,使之可以帮助企业作出明智的决定,包括结构化查询语言、Excel以及Tableau 或 Power BI等可视化工具的使用专家。另外一方面,数据科学家须要创建健全的模型以大规模推断和解决商业问题。所以,他们有必要加强本身的编程技能。

练习Python形式的编程很重要。Python已成为世界上最受欢迎的译码语言,并且拥有无数已经过测试并不断更新的数据科学库。不出所料,大多数据科学团队都在寻找 Python 使用者。因此若是你还不了解Python,报名一个在线课程,学一些能让你前行的基础知识。不要忽视像PEP8 这样的样式导引,而且从一开始实践的时候就要保持耐心,这样就会获得使人满意的结果。另外,学习如何使用Jupyter 是更快的工做流和数据/模型探究的关键。

秘诀4:为了拥有更好更快的编程技能不断练习。


由于编程赋予你魔法能量

参加黑客马拉松,参与数据科学类竞赛,参与我的编码项目是加强编程能力的不一样途径。发现并抓住分析结果中产生的数据科学的机会是在目前角色中得到经历的一种方式。为预测和异常检测进行算法是另外能够承接的工做项目,甚至能够看成做为分析师我的提升的一部分。

掌握软件工程技能

当但愿本身的模型能有产出曙光的时候,具有软件工程技能就会颇有必要。出于方法论和法律缘由,培养以经过自动化实现项目和结果再产出为目标的编码态度相当重要。在一个有着成熟数据科学文化的公司,也许一些人在建立原型,一些人在编写产品代码,另外一些人在部署代码。实际上,不论公司规模大小,都不太可能得到所有要求的东西,并且对提交一个数据科学项目来讲,仅仅了解统计学是远远不够的。

秘诀5:在项目中尽早实现步骤自动化。

所以,初始数据科学桶列表以下:

· 可再生数据管道(例如,在 spark 和python中):你是否曾经再次生成了一个以前作过的分析?建立逻辑数据流(原始(不可变数据 -> 中介(正在进行的工做) -> 已处理(最终性能)),使用 Makefiles 会给你和你的同事们节约不少时间。

· 端到端的训练及评估自动化:模型在大多时候都是一个活体,新的预测须要产生,数据须要转变。这意味着再训练、评估和优化。将模型参数、秘密和随机种子放入配置文件,将数据集项目拆解成不一样元素,以及应用 modularitye.g 建立再训练和评估期间均可以使用的共享性能库,是有必要的。

· 单元测试覆盖:你确定但愿能有一个无忧无虑的好梦和不受打扰的假期。那么,为了确保稳健性,给本身的项目编写测试就尤其重要。

· 创建应用程序接口提供预测:为了传达本身的想法和模型,须要具备相关概念的证据,而且在不少状况下它与表述性状态转移应用程序接口等同。若是使用 Python 之外的另外一种语言不会对你产生干扰,也可使用带有Swagger UI 的 Flask 和 Flasgger。对文件编制和表述性状态转移类网页服务器来讲, Sawgger 会颇有用。

· 为环境控制系统的部署或生产环境集装箱化数据科学解决方案:Docker 容许用户孤立项目并分离其依赖关系,在环境之间移动模型并以彻底相同的方式运行代码实现100%再生产。这会有助于你和开发运维人员与工程师之间的合做。由于他们能够在无需了解数据科学的状况下将你的容器用做黑盒。

数据科学家变成列表中的部分勾选图标

将科学翻译为领域语言

做为数据处理人员和主题专家,你能够经过机器学习所学的,寻找数据的代理或者让它成为一个潜在因素,来克服一些障碍,好比业务缺失和关键业绩指标认定。数据科学一般会给业务带来破坏,其结果就是须要将本身的想法传递给上级领导以得到必定的支持和资源。有些人可能会说,让全部企业的股东理解算法是一门艺术。为了向他人展现其重要性,学会如何解释本身所建立的内容是我不断反复学习的东西。正如毕马威现任数据科学和工程主管丽贝卡·蒲波在硅谷女人会议上所强调的:“请时刻记住,具备影响力的是你(不是你的代码),人们不买算法,他们是信任你和你的能力。”所以,请确保将关注点和时间投放在把数学转译成针对垂直行业的视觉叙事上。

秘诀6:用来自垂直行业的专业术语谈论工做。

正在解释深度学习的数据科学家(图源https://memegenerator.net/img/instances/63241330.jpg)

成长时期

在一个新成型的专业领域工做,相比困难,更多的是兴奋。寻找一个能让你成长的团队,持有海绵般的头脑对会加快你成功的步伐。理想状况下,主管会明白你每日的工做,以及你要到达的目标。不然,就要在团队或者公司以外寻找你可能须要的额外指导,好比校友或者大学教授,亦或人际网中一位友好的数据科学家。见面会或会议也可使人受到启发,有助于你完成这项任务。

秘诀7:请记住,没有课本或课程会和导师指导同样重要。

用唐·柯里昂的声音读出来

总结来讲,为了从事数据科学领域的工做,你应该关注的技能是统计学、多元微积分和线性代数、机器学习、编程技能、软件工程技能以及可视化技能。

斯蒂芬·格林格·雷恩的数据科学韦恩图解

留言 点赞 关注

咱们一块儿分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”


(添加小编微信:dxsxbb,加入读者圈,一块儿讨论最新鲜的人工智能科技哦~)

相关文章
相关标签/搜索