1.熟悉基础的数据科学术语git
在你开始学习以前,第一步是什么,确定是理解什么是数据科学!github
让咱们花点时间回答这个问题,看一下数据科学中的不一样角色,并熟悉这个领域的经常使用术语。面试
首先最重要的是要知道你将要作的是什么,那么咱们首先回答这个问题 - 为何你想从事数据科学工做?是由于你喜欢编程,数学,统计和他们提供工做的机会吗?或者是你正在顺应潮流,由于'数据科学'和'机器学习'是目前有关将来的发展潮流?算法
1.1什么是数据科学?编程
目前天天生成的数据量呈指数级增加!在过去十年中,数据的来源以及收集和存储数据的能力已经取得了很大的进步。公司正在使用各类工具和技术来挖掘数据中的模式并收集有用的信息。简而言之,这就是数据科学的所有意义所在。安全
“数据确实为咱们所作的一切提供了支持。” - LinkedIn首席执行官Jeff Weiner网络
简单的说,数据科学涉及使用各类技术来理解数据并构建预测模型以作出业务决策。数据科学的一些流行应用包括欺诈检测,体育分析,航空公司航线规划等。机器学习
所以,若是数据科学是关于从数据中获取洞察力和发现信息的模式,那么数据科学家和统计学家之间有什么区别?这是一个很是好的问题!让咱们来看看他们之间有什么区别。编程语言
1.2数据科学家与统计学家函数
数据科学家和统计学家都使用这些数据从中得到有用的信息。统计学家专一于识别数据中的关系,而数据科学家则致力于使用关系并创建模型来预测将来的结果。数据科学家的目标是创建一个高精度的通用模型。
统计学家常用R,Excel或MATLAB等工具,由于它们有许多用于数据分析的库。另外一方面,数据科学家主要使用Python,Apache Spark等来探索数据和构建模型。
1.3数据科学中的通用术语
数据科学是一个复杂而广阔的领域。让咱们理解它的不一样的组成部分,这样就能够缩小你长期须要关注的领域。
机器学习:机器学习是利用算法(如线性回归,逻辑回归,决策树等)从数据中学习并作出明智的决策。例如,使用已经得到贷款的人的数据,并试图预测他们是否会再次贷款。
深度学习:深度学习是机器学习的一个子集,旨在模仿人类的决策能力。例如,识别给定图像中的对象,或将图像分类为猫或狗。
天然语言处理(NLP):NLP是数据科学的一个分支,负责分析,理解和从文本数据中获取信息。你在亚马逊上看到的全部评论,或者你天天浏览的全部推文,都是由NLP技术用于解析它们并理解用户的情绪。NLP是目前数据科学领域中最热门的领域之一。
计算机视觉:顾名思义,计算机视觉拥有使机器可以看到和理解周围环境的能力。有没有注意到Facebook如何自动推荐图片中的标签的?或者自动驾驶汽车如何检测道路上的物体?这些都是计算机视觉的主要例子。这是另外一个将在将来几年内出现大量工做的领域。
推荐引擎: 曾经使用过Flipkart或Amazon的任何人都是推荐引擎的一部分。这部分包括了分析过去的用户行为,以提供相关的建议或推荐。“购买此产品的客户也购买了”或“根据你过去的购买状况推荐给你”都是推荐引擎在起做用。
2.开始你的数据科学之旅
因此当你决定冒险尝试成为一名数据科学家时,那么没有什么能够阻止你了。首先,恭喜你选择了业内最热门的领域!
若是你是一个没有行业经验的应届生,那么实习是在数据科学中发挥做用的最佳方式。他们为你提供了一个得到行业经验的机,同时与经验丰富的退伍军人一块儿工做。在这几个月里,你有不少东西须要学习,而且这将影响你的职业生涯。
在接下来的几节中,咱们将介绍第一次数据科学实习所需的基本技能。
2.1了解统计学和几率论
统计学和几率论是数据科学所需的基本核心技能。若是没有对这二者的充分理解,你将不会在这个领域(或面试过程当中)取得很大进展!从分析数据并作出有价值的推论到理解模型的工做原理,统计和几率的基本概念都被整合到数据科学生态系统中。
咱们能够利用许多统计技术和几率分布来理解给定数据的结构。如下是在处理数据科学问题时将要使用的一些重要的知识点:
2.2良好的编程技巧(选择一种编程语言)
是的,你须要了解编程才能成为数据科学家。这是没法逃避的。AutoML(自动机器学习)正在逐渐被业界接受,可是如今,除了冰冷的编码技能以外别无选择。
目前用于数据科学的两种最流行的编程工具是Python和R.你必须熟悉二者中的至少一种。这些都是开源编程语言,都拥有一个日益增加的大型活跃社区。
R主要用于探索性工做,是统计分析任务的首选。它有一个相对较大的统计软件包库。另外一方面,Python是机器学习和深度学习任务的首选。它有许多机器学习和深度学习库和包。
现在,Python在业界确定更受欢迎。若是你倾向于学习高级机器学习主题,固然还有深度学习,这是一个简单的选择。Python提供的灵活性在这些任务中是无与伦比的。R是一个很是熟练的工具,用于进行探索性分析,包括产生一些很是有洞察力和审美愉悦的情节。
2.3基本的机器学习算法
若是你已经掌握了统计学和几率的基础知识,而且已经掌握了编码技能,那么下一步就是学习机器学习算法的基础知识。熟悉常见的机器学习算法,如线性回归,逻辑回归,决策树,随机森林,朴素贝叶斯,k近邻和支持向量机。
尝试一次只关注一种算法,并了解每种技术背后的直觉。拥有算法的理论知识及其工做方式与可以实现算法一样重要。若是你知道算法的工做原理,你将更容易理解算法的各类参数,调整这些参数以及决定使用哪一种算法与哪一种类型的数据。
3.构建你的数字产品组合(在线资料)
当你正在努力学习全部的这些新概念时。那么你应该试着展现本身的技能,从而补充全部这些努力。
仅依靠统计,编程和机器学习可能不会让你得到实习的机会。你须要创建本身的数字形象。展现你巨大的潜力,展现你在数据科学之旅中得到的技能。让全世界都知道!
在本节中,咱们将介绍可用于构建重要文件的不一样方法。
3.1项目工做
我相信学习任何东西的最好方法是将你的知识付诸实践。没有什么比在项目中展现它更能说明“我知道这种技术”了。构建端到端的项目可以让你了解数据科学家在平常角色中可能面临的各类可能性和挑战。
你能够寻找与你感兴趣的领域相关的开源项目。相信我,互联网上并不缺少数据。若是我是一个小说的忠实粉丝,那么我能够用NLP来分析我最喜欢的做家的做品。这代表了对数据科学的热情,并让你在将来的雇主眼中得到优点
如下是一些实践问题(数据连接在文章的最后会放出),能够得到一些宝贵的实践经验:
3.2建立GitHub配置文件
你还应该在此阶段开始建立一个GitHub帐户并使用它。这本质上是你的数据科学简历,世界上任何人均可以看到它。
大多数数据科学招聘人员和面试官都会查看求职者的GitHub资料,以评估他/她的潜力。在处理项目时,能够同时列出GitHub上的问题语句和代码。我整理了一个小清单,你能够在下次将代码添加到GitHub时遵循:
3.3写博客
我会告诉你一个推进我数据科学事业发展的重要秘诀 - 那就是撰写文章。每当我学习一个新概念时,我都养成了记笔记的习惯。而后很容易的将其转换为文章。这有助于我以更加清晰的方式理解该技术。
你也应该这样作!社区很乐意跟你分析他们的想法和反馈。而当你将文章公开发表时,人们也会分享他们的观点 - 例如“添加实际与预测的可视化可能会有所帮助”,这能够帮助你改进技术。
Quora能够被视为写博客的另外一种选择(这是我第一次开始写做的地方)。将复杂的主题分解为易于理解的单词,有助于你掌握主题并精细调整你的结构化思惟的技能。
首先,你能够写一些基本的主题,例如使用matplotlib库的进行数据探索、实践问题的方法和解决方案,完成的MOOC的总结或笔记等。
3.4建立和优化你招聘网站的我的资料
LinkedIn是世界上最大的职业社交网站。即便你是一名大一的新生或着即将完成学业的研究生,均可以尝试参加一下。
招聘人员常用招聘网站中的信息来验证你的我的资料,或在有机会的状况下与你联系。你能够将其视为你的第二份简历或纸质简历的电子版。若是你想找一份实习的工做可是你的我的资料未更新(或不存在),那么你可能会错过这份工做。
根据你申请的实习职业优化你的我的资料。更新你过去的经验(若是有的话),教育水平,项目和兴趣。若是你还没有建立你的我的资料,那么请快速的去建立我的资料。 你还应该经过与数据科学领域的人员创建联系来开始构建你的关系网络。
有不少人,包括不少有影响力的人,他们按期发布有用的开发成果,我认为去认识他们对你来讲应该是强制性的。
4.制定数据科学简历的作法和注意事项
你的简历本质上是你职业生涯的亮点。这是招聘人员/招聘经理看到的第一件事,因此制做完美的简历绝对是你实现寻找一份实习工做的关键。
即便你拥有实习要求部分列出的全部技能,但若是你的简历未达标,那么你极可能得不到面试的机会。
你必须,绝对必须,花费大量时间来创造和完善你的简历。
那么在作这件事时要记住哪些关键的事情呢?
确保你的简历是最新的,而且没有任何拼写错误。检查两次甚至三次。让你的同事或朋友从招聘人员的角度对其进行审核。
在建立或更新简历时,请始终牢记这一点:
写下你所知道的,知道你写的。
还记得你在大学的第一年作的项目嘛?那多是2-3年前的事了,若是你不记得的细节了?要么研究一些它,要么就不在简历上写它。有10个你没法谈论的项目对招聘人员是一个危险的信号!你写下的全部技术和技能也是如此。
5.准备你的数据科学实习面试
得到一份数据科学有关的实习的最大挑战无疑是面试过程。鉴于你以前没有此领域的工做经验,招聘人员会看你简历的哪些方面?那么你应该在简历和实际面试中展现哪些技能?
这是一个大问题!知道如何驾驭这些棘手的领域可能会影响你得到实习的成败。
固然,你确定会提到你参与过的(或正在进行中)的项目。但除此以外,不管你有什么背景,面试官都会热衷于一些特定的话题。本节将介绍你须要关注并准备面试的关键问题。
5.1结构化思惟
在复杂的数据科学世界中,构建思想的能力是一项宝贵的技能。面试官会判断你是否有能力将问题陈述分解为更小的步骤。而且你会怎么作,这就是这项能力的宝贵所在。
对于任何给定的问题陈述,有必要肯定最终目标是什么。下一步是理解提供的数据,并写下实现最终目标所须要的流程。全部这一切都发生在有限的时间范围内(面试官没有一成天的时间去面试你!)。你明白为何有条理的思惟方式这么重要了么?
为告终构化思惟技巧,你会获得一个问题 - 目前有多少封邮件正在发送?那是我在面试时被问到的问题。或者班加罗尔的道路上有多少辆红色汽车?印度天天会迈出多少支香烟?
例如,若是我想了解上个月信用卡投资组合中的收费忽然增长的缘由,我会将其放在相似于如下的结构中:
这些问题没有精确的解决办法。那你怎么解决它们呢?首先要明白的是,面试官并不指望获得确切的数字答案。相反,他们试图了解你如何看待问题以及你得到最终答案的方法。要求使用笔和纸(或白板)是一个好主意,这样你就能够逐步展现本身的想法。
5.2了解你申请的公司
你可能会以为这一点与讨论的无关。这并非什么须要说起的事情,由于每一个人在申请以前都要看一遍公司的职业描述。但这是一个有用的观点。
但仅仅只是浏览描述是不够的。
咱们常常听到招聘人员说有的求职者在没有读过他们公司正在面试的职位的状况下就进来面试了。我我的看到一些人由于不喜欢将来的工做而在实习的几周内就离开了。
在你决定申请工做以前,你必须知道公司是作什么的和公司的愿景是什么。关于这一点,没有第二条路能够走
个人建议是研究一下公司,了解他们的工做。你以为本身是否能够适应?你能直接看到你的技能能够对公司产生影响吗?你还必须完全的查看职位描述并在面试中提出问题,以了解你是否适应这家公司。这将节省你的时间和公司的时间。
6.增长你被选择的机会
到目前为止咱们看到的指针能够安全地放在“必须拥有”的类别下。若是不确保检查每个选项,你就没法作到。可是,你能够进一步提升你现有的技能,从竞争中脱颖而出。谁不想那样作?!
在本节中,我借鉴了本身的实习经验,为你提供了一些额外的建议和技巧,以提升你被选中的机会。
6.1高级机器学习
没有什么比看着你自信地回答先进的机器学习问题更能打动面试官了。他们采访的大多数人都能解决基本问题。掌握先进的ML知识确定会给你带来优点。
确保你已经覆盖了咱们以前讨论过的基本机器学习主题(统计数据,几率,回归,树算法等)。而后,你能够安全地跳转到高级ML算法,推荐系统,时间序列预测算法等。
在你职业生涯的这个阶段,我没有必要详细了解全部算法。我相信你会发现3-4种很是有用的技巧,因此要好好学习它们 - 并在面试中喋喋不休。你应该对算法及其背后的数学有一个公平的理解。你能够根据本身的兴趣选择特定字段,并探索该领域中的各类技术。
举个例子,若是你对时间序列感兴趣,你能够开始探索不一样的预测技术,平稳性的概念,甚至选择一个关于时间序列的项目并进行研究。或者,若是NLP是你感兴趣的字段,你能够了解如何从基于文本的数据中提取特征,能够在文本数据上使用哪些算法等等。
6.2参加数据科学竞赛
这会为你的简历添加了推进力,增长了得到实习的机会。完成或完成一个项目后,证实你的知识不只仅局限于书籍。很明显的,你已经尝试将你的理论学习转化为现实世界的数据集 - 这是你的好奇心,热情和学习意愿很是高的一个迹象。
首先,我很是鼓励你参加数据科学竞赛。从AV的DataHack平台或Kaggle上列出的黑客马拉松开始。这些平台提供了模仿真实场景的问题陈述,从而为你提供了对行业生活感觉的宝贵机会。
你还能够与来自世界各地的顶级数据科学家竞争(并向他们学习)。这能够做为你自身进步的晴雨表。坚持练习,你会发现你在排行榜排名上升得会有多快。实践就是数据科学之王。
7.在实习期间你会学到什么?
实习能够为你提供哪些教科书,MOOC和视频不能提供给你的?
实践经验。
这是招聘经理在浏览你的我的资料时最看重的一件事。我意识到我在Analytics Vidhya的实习经历是多么有用。
若是你以开放的心态,愿意天天学习,那么你能够从实习中学到不少东西。这正是你在数据科学方面取得成功的方式!
在本节中,我会描述我在数据科学实习期间的主要收获
7.1如何解决实际项目
在实习期间,你将参与一个真实的项目。这是很是宝贵的经验。一旦你加入了这个项目,你可能会发现本身已经陷入端到端的数据科学生命周期,包括定义问题语句和构建模型。
若是你以前参加过数据科学竞赛,你将对数据科学家遇到的不一样挑战有一个概念。但须要注意的是。
这些竞赛中提供的问题描述和数据集与现实场景很是不一样。数据集在行业中是混乱和非结构化的。在构建任何模型以前,须要进行大量的数据清理工做。
事实上,若是70-80%的任务涉及数据清理,请不要对此感到惊讶。
你将学习如何构造问题语句,理解解决问题所需的域和数据,而后找出提取数据的来源。下一步是深刻研究。了解其余数据科学家为解决相似问题所采起的方法。
这将给你一个公平的想法,什么工做应该作得好,什么工做不值得花费时间。虽然数据科学鼓励进行实验,但你从经理那里得到的创做自由度是有限的。过滤掉那些你事先知道不会起做用的方面。
7.2讲述数据故事的方法(探索性数据分析)
人们一般花费更多时间来构建模型而不是理解数据。我本身曾经这么作过很长时间。正是在个人实习期间,当我在作一个项目的时候,我意识到个人方法是多么的错误,没有之一。
我再怎么强调让你了解你所拥有的数据的重要性也不为过。数据集中存在着不少层次和隐藏的方面,咱们常常在匆忙构建模型时忽略它们。这是你应该在实习期间学会的东西(但要提早作好准备)。
花尽量多的时间探索数据!绘制图表,寻找模式,而后就像它是世界上最好的做品同样投入其中(由于它的确是!)尝试着理解分布,查找影响目标变量的因素并进行推断。创建一个假设,可视化数据,找到看法,最重要的是,与你的队友讨论你的发现。
7.3团队合做
数据科学实习的一个好处是与很是聪明和支持你的人合做。当你朝着最终目标努力时,数据科学项目须要同事之间的协做和协调。我认为本身很幸运能成为这样一支伟大团队的一员。
在团队中工做的最好的部分是老是有人讨论你的想法(并澄清你的疑虑)。例如,在我在Analytics Vidhya的实习期间,咱们做为一个团队参与了一个大型的黑客马拉松。数据集有多个文件,所以咱们划分了任务,咱们每一个人都在理解特定的文件,并与团队的其余成员分享咱们的知识。
这是一次了不得的经历。
在这些讨论中,我学习了不一样的方法来解决问题和改进/优化个人代码。团队合做不只能够帮助你创建本身的软技能,还能够磨练你的技术技能。这是一个共赢的组合!
7.4得到该领域的实践经验
当你开始你的数据科学求职时,你极可能会发现大多数公司都要求在这个领域中得到一些经验。你应该了解公司正在处理的问题,并考虑您能够为公司作出贡献的方式。与正在从事这个项目的人讨论你的想法。
你还应该尝试了解公司中其余人的角色。你能够与不一样团队的人员进行交流和讨论。例如,与营销团队交谈,了解你是否可以想出一个数据驱动的方案来解决他们的问题。充分利用你的机会。保持好奇心,问相关的问题,向你的团队学习。
7 Steps to crack your first Data Science Internship (Tips, Tricks and Resources!)