如何作出属于你本身的优秀数据科学做品集?

全文共2458字,预计学习时长5分钟python

图源:Unsplash 摄影:Skye Studiosios

本文将对如何构建数据科学做品集进行深刻介绍。
微信

激情必不可少机器学习

若是你真的想作一个数据科学的做品集的话,就不太可能有不少业余时间,致力于创建数据科学做品集确定须要精力上的投入和时间上的牺牲。根据经验,只有在作一个让你充满激情的项目时,你才能成功作到这些。激情也不必定是一下就能找到的。学习

写做是一个很好的媒介,由于经过写做可以实现分享想法的激情。也许你很想用深度学习作一个项目,却动力不足,但也许你对音乐充满热情,那你就可使用深度学习创做音乐的方式来建立做品集。把精力投入到感兴趣的事情上能够在你想要放弃的时候助你突破各类艰难险阻。人工智能

提出你本身的问题3d

在kaggle等数据科学平台上围绕预约义问题作一些辅助性项目很是有吸引力。虽然这样作确定会使整个过程更容易,但却忽略了数据科学研究过程当中最重要的部分之一:提出问题。在应用中,最难的每每是将业务问题转化为数据科学问题。编写代码前请仔细考虑如下问题:cdn

• 我想解决什么问题?blog

• 怎样才能用数据科学来解决这个问题?ci

• 若是我能解决这个问题,那会创造什么价值?

你的回答可能很简单。好比说,我想作一些带有我喜欢的乐队风格的音乐,而我通过调查发现深度学习在解决这个问题上已经取得了一些成功,若是我能解决这个问题,就会有听不完的音乐,而这些音乐都好像是我喜欢的明星作的同样!

考虑这些问题是必不可少的,由于它为你项目的故事提供了背景。这一步能帮助你更好地向别人解释你选择这个项目的缘由,同时也能说明你在解决一个问题时有战略性思惟。

收集本身的数据

若是你提出了本身的问题,收集数据这个步骤是必须的。你的问题多是独一无二的,所以须要花费一些时间来收集数据。这样作很好!你能够在项目中展现收集数据的技能。好比说咱们刚刚举的作音乐的例子,这个项目可能就须要找免费的音乐包(https://freemusicarchive.org/about),这些音乐包里须要有高品质,合法的本地音频。搜索和收集本身的数据的过程当中,你必定会学会收集数据这个数据科学研究中关键的一步,而这一步学校并不会教给你。

图源:Unsplash 摄影:Craig Whitehead

展现数据探索的过程

正如特斯拉公司人工智能研究负责人安德烈·卡锡(Andrej Karpathy)所说:成为一个与数据共生的人。

全部机器学习项目的首要任务之一就是花时间检查和分析数据。不要跳过这一步。这很是重要,由于它可让你作出一些真正优秀的数据可视化。仔细检查数据,并关注如下内容:

• 是否有异常值?

• 特征分布是什么样的?

• 绘制要素与目标之间的关系

• 查看数据的真实案例

在此步骤中,你还能够作更多事情,但以上这些问题已是一个很好的开始了。使用seaborn统计图制做库(https://seaborn.pydata.org/)可美化图表,或者你想要作得更多更好的话,能够尝试让可视化与诸如Plotly等开源数据可视化平台(https://plot.ly/python/)进行交互。这一步的目标是向其余人展现你是如何经过分析数据来揭示其余人并未发现的知识,而这一步也将让你的模型变得更好。

构建多个模型

一般状况下,项目只展现最好的模型。一个真正优秀的做品集可让人们理解你的思惟过程,因此请将思惟过程展现给咱们!为能知足这个要求,建议你采起如下步骤:

• 第一步,建立一个非机器学习基线。这个基线应该像历史平均值同样合理。对于评估第一个基于机器学习的模型,这是关键的一步。

• 第二步,建立第一个机器学习模型。说明你选择将此做为第一个模型的缘由,并将其与非机器学习基线进行比较。

• 第三步,创建第二个机器学习模型。这一步的要点是要解释清楚为何在创建第一个机器学习模型以后创建这个模型是最好的一步。是否由于你的模型过分拟合才须要使用一个相对简单的模型或添加正则化呢?也许你使用了相同的模型,可是由于分析错误而开发了不在预约计划内的功能。

• 第四步,重复步骤三直至你对结果满意。

最后,你不只须要在项目中构建多个模型,还须要按照逻辑叙述并解释你开发一个完整机器学习模型的思惟模式。

描述过程

到这个时候,你已经作完了不少关键步骤,可能会以为任务已经差很少完成了。没这么快!你如今须要倒回去,把全部工做联系在一块儿并进行一次完整的描述。

优秀的数据科学家也是优秀的故事讲述者。

这是构建你的优秀项目过程当中最重要的一步。若是你跳过这一步,你可能只是在GitHub开源代码库上有一堆代码,而那称不上是个做品集。建议用一些诸如Medium的博客平台,或者甚至能够开发本身的博客来说开发历程。写下项目的目标,强调重点的探索性分析,其中包括你的模型结果和思考过程,而后告诉你们如何在项目中创造价值。

能够把描述过程这一步看做是给董事会展现项目。你并不须要在描述过程时提到任何代码(但必定要提供“GitHub”上的代码连接)。

图源:Unsplash 摄影:JOSHUA COLEMAN

重复

如今做品集里有一个很好的项目了。以后要作的就是重复这个过程。这一步确实须要巨大的工做量,消耗不少时间,但只要坚持并保持专一,你就会发现本身有一些很好的故事,能够讲述你是如何使用机器学习在你充满激情的领域创造价值的(要确保你在“领英”(LinkedIn)职场社交平台和简历上突出了你的做品集)。这个数据科学做品集很是优秀,必定会让你脱颖而出。

想要寻找一些灵感吗?能够看看蒂姆·德特莫(https://timdettmers.com/data-science-portfolio/)的数据科学做品集。

留言 点赞 关注

咱们一块儿分享AI学习与发展的干货
欢迎关注全平台AI垂类自媒体 “读芯术”


(添加小编微信:dxsxbb,加入读者圈,一块儿讨论最新鲜的人工智能科技哦~)

相关文章
相关标签/搜索