因此当你已经决定在数据科学这条道路走下去的时候。世界上愈来愈多的企业正在成为或者转型成为数据驱动的企业,世界变得愈来愈紧密,而且看起来每一个企业都须要数据科学的人才。所以,对数据科学家的需求是巨大的。更巧妙的是,每一个人都认可这个行业内人才是短缺的。面试
然而,成为一名数据科学家并不容易。要想得到真正的成功,须要解决问题,拥有结构化思惟以及编程和各类技术技能的结合。若是你并不是来自技术和数学的教育背景,那么你颇有可能经过书籍和视频课程来学习。大多数的这些资源并不能告诉你业界须要的数据科学家的要求是什么。算法
这就是为何有抱负的数据科学家正在努力弥合自我教育与现实工做之间的差距。编程
在本文中,我将讨论新手数据科学家所犯的常见错误(我本身也犯过一些)。我还提供了尽量多的资源,旨在帮助你避免数据科学之旅中的这些陷阱。网络
正如我在关于文章中提到的那样 - 掌握机器学习技术背后的理论是很好的。但若是你不该用它们,它们只是理论概念。当我开始学习数据科学时,我犯了一样的错误 - 我学习了书籍和在线课程,可是并不能把它们所有都应用到实际的问题中去。架构
所以如今当我遇到一个挑战或问题时,我会尽量的去使用我所学的一切有关的知识,而不是只用一部分!有不少东西须要学习 - 算法,推导,研究论文等。你颇有可能在中途失去你的动力并放弃一部分或者所有。我亲眼看到这种状况发生在不少试图进入这个领域的人身上。框架
你的学习过程必须在理论和实践之间保持良好的平衡。只要你学习了一个概念,请当即访问百度,找到可使用它的数据集或问题,而后进行实践。你会发现你比之前更好地学习了这种概念。你还可使用各类数据科学领域平台的练习题和正在进行的比赛。机器学习
你将不得不接受你没法一次性学习全部东西。用你的练习去填补空白,这样你将学到更多东西!工具
想要成为数据科学家的大多数人都受到机器人视频或使人敬畏的预测模型的启发,在某些状况下甚至是成为数据科学家会有高薪。遗憾的是(很抱歉让你失望了),在到达你想要的以前,你须要走很长的路。学习
在将技术应用实际问题以前,你应该先了解技术的工做原理。学习这些将有助于你了解算法的工做原理,你能够作些什么进行优化它,而且还将帮助你构建现有技术。数学在这里发挥着重要的做用,因此了解某些概念老是有帮助的。在平常的企业数据科学家角色中,你可能不须要了解高级微积分,但明白一些高级概述仍是确定会有帮助的。测试
若是你有必定的好奇心,或者想要从事研究工做,在进入核心机器学习以前,你须要了解的四个关键要素是:
正如房子是一砖一瓦慢慢砌起来同样,数据科学家也是全部独立部分的总和。有大量的资源能够帮助你学习这些主题。我已经提到了下面每一个主题的一个资源,你能够在网络上搜索到他们:
啊,这是招聘经理和招聘人员最烦恼的事。自从数据科学变得很是受欢迎以来,各类的认证和学位几乎都出现了。浏览一下个人招聘资料,至少能够看到5张使人自豪的认证展现图片。虽然得到认证并不是易事,但彻底依赖它是灾难的根源。
网上有太多这样的课程被成千上万有抱负的数据科学家一遍遍的学习和完成。若是他们曾经为你的数据科学简历添加了独特的价值,那如今并非这样了。招聘经理并不关心这些 - 他们更加剧视你的知识,以及你如何在现实生活中如何应用这些知识。
这是由于与客户打交道,处理截止日期,了解数据科学项目生命周期如何工做,如何设计模型以适应现有的业务框架 - 这些都只是你做为数据科学家成功所须要了解的一些事项。仅仅一个证书或者学位并不能说明你能够胜任这份工做。
不要误解个人意思 - 证书是颇有价值的,但只有当你将这些知识应用到课堂以外并将其公之于众时,证书才会有价值。使用真实世界的数据集和你作的任何分析,都要写下来。保存到你的博客上,并在招聘网站上发布,征求社区的意见。这代表你愿意学习而且足够灵活的接受建议并将其用于你的项目。
你应该对实习的想法持积极的态度(不管你的经验水平如何)。你将学到不少关于数据科学团队如何工做的知识,这将使你在参加另外一次面试时受益。
这是如今有抱负的数据科学家最大的误解之一。比赛和黑客马拉松为咱们提供了干净和一尘不染的数据集(好吧 - 我有点过火,但你应该明白是什么意思)。你下载它们,并开始处理该问题。即便那些具备缺失值列的数据集也不须要你去使用你的脑细胞 - 只须要找出插补技术而后填充空白就能够了。
不幸的是,现实世界的项目数据并不像那样。而是有一个端到端的管道,涉及与一群人合做。你几乎老是要处理混乱和不干净的数据。关于花费70-80%的时间来收集和清理数据的老话是正确的。这是一个使人筋疲力尽的部分,你会(极可能)不喜欢这种事情,但它最终会成为例行公事的一部分。
此外,咱们将在下一点更详细地介绍这一点,更简单的模型将优先于任何复杂的堆叠集成模型。准确性并不老是最终目标,这是你在工做中将学到的最鲜明的事情之一。
讽刺的是,消除这种误解的关键因素之一是经验。你得到的经验越多(实习在这种状况下有不少帮助),你就能越好地区分二者。这是社交媒体派上用场的地方 - 与数据科学家联系并向他们询问他们的经验。
另外,我建议经过数据科学网站的平台,经过来自世界各地的数据科学家就这个确切的问题提供他们的意见。在竞赛排行榜上得到好成绩很是适合衡量你的学习进度,可是面试官会想知道你是如何优化算法以达到影响,而不是为了提升准确性。了解数据科学项目的工做原理,团队所拥有的不一样类型的角色(从数据工程师到数据架构师),并从这个意义上构建答案。
如上所述,准确性并不是是企业所追求的。固然,一个可以以95%的准确度预测贷款违约的模型是好的,可是若是你没法解释模型是如何实现的,那些特征致使了高准确度的出现,以及你在构建模型时的想法,那么你的客户将拒绝使用它。
若是有的话,你不多会发如今商业应用中使用的深度神经网络。由于不可能向客户解释神经网络(更不用说深层)如何与隐藏层,卷积层等一块儿工做。第一个偏好是,而且将永远是确保咱们可以理解正在发生的事情在模型下面是如何运做的。若是你没法判断本身的年龄,家庭成员数量或以前的信用记录是否会拒绝贷款申请,那么公司如何运营?
另外一个关键方面是你的模型是否适合组织的现有框架。若是生产环境没法支持,使用10种不一样类型的工具和库那么使用它们就会失败。你将不得不采用更简单的方法从头开始设计和从新训练模型。
防止本身犯这个错误的最佳方法是与业内人士交谈。没有比经验更好的老师了。选择一个领域(财务,人力资源,营销,销售,运营等),并与人们了解他们的项目如何运做。
除此以外,练习制做更简单的模型,而后向非技术人员解释它。而后为模型添加复杂性并继续这样作,直到你不知道下面发生了。这将教你明白什么时候中止,以及为何简单模型老是在实际应用中被优先考虑。
若是你之前这样作过这样的事情,那么你会明白我在说什么。若是你的简历目前有此问题,那么立刻改过来吧!你可能知道不少技术和工具,但仅仅只是把它们列出来会让那些潜在的招聘经理望而却步。
你的简历是你得到的成就以及你如何作到的简介 - 而不是简单记下来的事情清单。当招聘人员查看你的简历时,他/她但愿以简明扼要的方式了解你的背景以及你所取得的成就。若是页面的一半填充了模糊的数据科学术语,如线性回归,XGBoost,LightGBM,而没有任何解释,你的简历可能没法经过筛选。
消除简历杂乱的最简单方法是使用要点。仅列出你用于完成某些事情的技术(多是项目或竞赛)。写下你是如何使用它的 - 这有助于招聘人员理解你的想法。
当你申请新的或入门级的工做时,你的简历须要反映你能够为业务增长的潜在影响。你将应用于不一样领域中的职位,也许有一个固定的模板可能会有所帮助 - 只需更改一些部分,就能够肯定你对特定行业的兴趣。
让咱们举个例子来理解为何这是一个错误。想象一下,你已经得到了有关房价的数据集,你须要预测将来房地产的价值。有200多个变量,包括建筑物数量,房间数量,租户数量,家庭规模,庭院大小,是否有水龙头等等。你极可能不知道某些变量的含义,但你删除了它以后,仍然能够构建具备良好精度的模型
但事实证实,该变量是真实场景中的一个关键因素。删除它是一个灾难性的错误。
拥有扎实的工具和库知识是很是好的,但它只会让你走到这一步。将这些知识与领域提出的业务问题相结合,才是真正的数据科学家介入的地方。你应该至少了解你感兴趣(或正在申请)的行业中所面临的基本挑战
这里有不少选择:
数据可视化是数据科学的一个很是美妙的方面,但许多有抱负的数据科学家更喜欢浏览它就进入模型构建阶段。这种方法可能会在比赛中发挥做用,但在实际工做中确定会失败。了解提供给你的数据是你将要作的最重要的事情,你的模型的结果将反映出来你对数据理解的程度。
经过花时间了解数据集并尝试不一样的图表,你将得到对你所负责解决的挑战或问题的有更深刻的了解。经过这样作,你会惊讶地知道你能够得到多少洞察力!模式和趋势出现,如何讲述数据和数据中最好的部分。可视化是向客户展现结果的最佳方式。
做为一名数据科学家,你须要拥有一颗好奇心。这是关于数据科学的伟大之处之一 - 你越是好奇,你会问的问题就越多。这样能够更好地理解提供给你的数据,并有助于解决你最初不知道的问题!
练习!下次处理数据集时,请花更多时间在此步骤上。你会惊讶于它将为提供产生的洞察力。多问问题!询问你的经理,询问领域专家,在互联网上搜索解决方案,若是你没有找到,那就请在社交媒体上询问。有太多太多的选择了!
结构化思惟以多种方式帮助数据科学家:
有不少缘由能够解释为何拥有结构化思惟帮助很大。你能够想象,没有一个结构化的思惟方式是违反直觉的。你的工做和解决问题的方法都是随机的,当遇到复杂的问题时你会忘记本身的步骤等等。
当你参加数据科学面试时,你将不可避免地得到一个案例研究,猜想、估计和各类难题。因为面试室内充满压力的气氛和时间限制,面试官会考虑你的思惟结构如何达到最终结果。在许多状况下,这多是一个破坏者或润滑者,来决定你是否得到工做。
你能够经过简单的训练和规范的方法得到结构化的思惟方式。
我已经见过这个太屡次了。因为每一个工具面临的困境和提供的独特的特性,人们倾向于尝试一次学习全部的工具。这是个坏主意 - 最终你不会掌握它们。工具只是执行数据科学的一种手段,并非最终的目标。
选择一个工具并坚持使用下去,直到你掌握它为止。若是你已经开始学习R,那么不要被Python所诱惑。坚持使用R,从头至尾学习它,而后尝试将另外一种工具融入你的技能组合中。你将经过这种方法学到更多。
每一个工具都有一个很好的用户社区,你能够在遇到困难时使用它们,使用论坛来提问,在线搜索,而不要放弃。目的是经过该工具学习数据科学,而不是经过数据科学学习工具。
若是你仍未肯定应该使用哪一种工具,那么请去查看一下各个工具的优缺点,结合只身的状况,选择一个合适本身的工具
这一点适用于全部数据科学家,而不只仅是新手。咱们有容易分心的倾向。咱们学习了一段时间(好比一个月),而后咱们在接下来的两个月里休息一下。在哪以后想要找回最佳状态的感受就像是一场噩梦。大多数早期的概念都被遗忘了,笔记也都丢失了,感受就像咱们浪费了几个月同样。
我我的也经历过这一点。因为咱们正在进行的各类事情,咱们找借口和理由不去学习。但这最终成为了咱们的损失 - 若是数据科学就像打开一本教科书,而后咱们只须要把全部东西都塞进去那么简单的话,那么今天每一个人都将成为数据科学家。数据科学须要不断的努力和学习,这是人们直到为时已晚才意识到的这一点。
为本身设定目标。画出一张时间表并贴在墙上。计划好你想要学习的方式和内容,并为本身设定截止日期。例如,当我想学习神经网络时,我给了本身几个星期,而后经过参加比赛来测试我学到了什么。
你既然已经决定成为一名数据科学家,因此你应该准备好投入时间。若是你老是找借口不去学习,那么这个领域可能不适合你。
这是咱们在上述几点中看到的一些事情的组合。有抱负的数据科学家每每羞于在线发表他们的分析,由于他们惧怕受到批评。可是,若是你没有收到社区的反馈意见,那么你将不会成长为一名数据科学家。
数据科学是一个讨论,思想和头脑风暴相当重要的领域。你不能坐在孤岛中工做 - 你须要合做并理解其余数据科学家的观点。一样,人们不参加比赛,由于他们以为本身不会获胜。这是一种错误的心态!你参加这些比赛来学习,而不是赢。获胜是奖励,学习是目标。
这很简单 - 开始参与讨论和比赛! 没有进入前5%也没关系。若是你从整个事物中学到一种新技术,那么你就是凭本身的力量取得了胜利。
沟通技巧是数据科学家绝对必须拥有的最被低估价和最少被谈论的方面之一。我尚未遇到一个强调这一点的课程。你能够学习全部最新技术,掌握多种工具并制做最佳图表,但若是你没法向客户解释你的分析,那你就会说一位失败的数据科学家。
并且不只仅是客户,你还将与不熟悉数据科学的团队成员合做 - IT,人力资源,财务,运营等。你能够确信,面试官会一直关注你这一方面。
假设你使用逻辑回归构建了信用风险模型。做为一个思考练习,花一点时间思考如何向非技术人员解释你是如何得出最终结论的。若是你须要使用过任何技术词汇,那么你须要尽快的学习这一点!
现在大多数数据科学家都来自计算机科学背景,因此我理解这多是一项使人生畏的技能。但要成为一名成功的数据科学家并沿着阶梯向上爬,你别无选择,只能磨练本身个性的这一部分。
我以为最有用的一件事就是向非技术人员解释数据科学术语。它能够帮助我衡量我对问题的清晰度。若是你在中小型公司工做,请在营销或销售部门找一我的并与他们一块儿作这个练习。从长远来看,它将极大地帮助你。
互联网上有大量的免费资源能够帮助你入门,但请记住,练习是软技能的关键。确保你今天开始这样作。
这可能不是一个详细的清单 - 有抱负的数据科学家每每会犯其余错误。但这些是我见过的最多见的错误,如前所述,个人目标是帮助其余人(尽量多地避免错误)。
13 Common Mistakes Amateur Data Scientists Make and How to Avoid Them?
来源:CDA数据分析师研究院