举两个栗子:如何正确创建我的的机器学习项目集

选自Towards Data Science,做者:Edouard Harris,机器之心编译。面试

面试机器学习方面的工做时,在简历的我的项目那块,你会写什么?建模?作机器学习项目?项目数据从哪儿来?在 SharpestMinds 创始人 Edouard Harris 介绍的两个成功例子中,人家是从基础的收集数据开始一步步作项目的:目标明确,作到极致。数据库

我是一名物理学家,在 YC startup 工做。咱们的任务是帮应届生找到本身的第一份机器学习工做。服务器

要找到第一份机器学习工做,你要作的一件事就是创建本身的机器学习项目集(portfolio)。如今,我来告诉你答案。机器学习

你可能会奇怪为何这很重要,那是由于招聘经理一般会经过你的履从来了解你,若是你没有履历,我的项目就是最接近的替代品。学习

由于职业缘由,我见过数百份我的项目的案例,有作得极好的,也有作得极差的。我将向你展现两个极好的案例。ui

尽心尽力型orm

接下来要说的是一件真实的故事,只不过隐私起见我改了主人公的名字。cdn

公司 X 使用 AI 提醒杂货店什么时候该订购新的库存。咱们这边有个学生——Ron,很想去 X 公司工做,因此他创建了我的项目,该项目彻底是针对去该公司面试用的。视频

咱们一般不建议这样对着一家公司尽心尽力作准备。这有点冒险。不过,像 Ron 这样真的很是想去这家公司就另当别论了。blog

红色边框标出了缺失项。
  1. Ron 刚开始把手机贴到购物车上。而后,他推着购物车在过道来回走动,同时用相机记录。他在不一样的杂货店作了 10 到 12 次。

  2. 回到家后,Ron 开始创建一个机器学习模型。他的模型发现了杂货店货架上的空缺点:货架上缺乏玉米片(或其余东西)的位置。

  3. Ron 在 GitHub 上实时创建了他的模型,彻底公开。天天,他都会改进他的 repo(提升准确率,并在他的 repo 的 README 中记录项目变化。)

  4. 当 X 公司意识到 Ron 正在这样作时,X 公司很感兴趣,并且不止是感兴趣,事实上,X 公司有点紧张。他们为何会紧张?由于 Ron 在不知不觉中,在几天内复制了他们专有技术堆栈的一部分。

固然,Ron 所作的远远不够完美:X 公司已经投入了比 Ron 多几个数量级的资源来解决这个问题。但因为太类似,他们很快就叫 Ron 将他的 repo 私有化。

X 公司的技术在同行业中名列前茅。尽管如此,在 4 天内,Ron 的项目获得了 X 公司首席执行官的直接我的关注。

飞行员项目

如下是另外一个真实故事:

Alex 是一名历史专业大学生,主修俄语(真的),同时他对机器学习感兴趣。更为不一样寻常的是,尽管他从未编写过 Python 代码,但他仍是决定学习它。

Alex 选择经过构建实用项目来学习。他决定创建一个分类器,以检测战斗机飞行员是否在飞机上失去意识。Alex 但愿经过观察飞行员的视频来发现这一点。他知道一我的很容易经过观察,在一名飞行员失去知觉时告诉他,因此 Alex 认为机器也应该能够作到。

这是 Alex 在几个月中所作的事情:

Alex 的 G-force 诱导失去意识探测器的演示。
  1. Alex 在 YouTube 上下载了从驾驶舱中拍摄的飞行员驾驶飞机的全部视频片断(大约数十个)。

  2. 接下来他开始标记数据。Alex 构建了一个 UI,让他能够滚动浏览数千个视频帧,按一个按钮表示「有意识」,另外一个按钮表示「无心识」,并自动将该帧保存在正确标记的文件夹中。这个标记过程很是很是无聊,花了他不少天时间。

  3. Alex 为图像构建了一个数据管道,能够将飞行员从驾驶舱背景中剪裁出来,使他的分类器更容易专一于飞行员。最后,他创建了他的意识丧失分类器。

  4. 在他作全部这些事情的同时,Alex 也在社交活动中向招聘经理展现他的项目快照。每当他拿出他的项目并在手机上展现时,他们会问他是如何作到的,他如何建造管道,以及如何收集数据。但他们历来没有询问他的模型准确率(低于 50%)。

固然,Alex 也计划提升其准确率,但在动手以前就被录用了。结果证实,公司更看重他项目的视觉效果以及他在数据收集过程当中表现出的疯狂与智慧,而不是他的模型的准确率。

他们之间的共同点

Ron 和 Alex 为何如此成功?由于他们作对了如下四件事:

  1. 他们没有在建模上浪费太多精力。我知道这听起来很奇怪,但对于今天的不少用例来讲,建模是一个已经解决的问题。在实际工做中,除非你作的是最前沿的研究,不然你的时间 80%~90% 都会花在清洗数据上。你的我的项目又怎能例外?

  2. 他们本身收集数据。正由于如此,他们获得的最终数据比 Kaggle 或 UCI 数据库中的数据更混乱。但也正是这些混乱的数据提升了他们处理混乱数据的能力。比起从学术服务器上下载数据,这种作法让他们可以更好地理解本身的数据。

  3. 他们将作出的东西可视化。所谓面试,并非说由一位无所不知的裁判对你的能力作出客观的评估,而是将你本身推销给另外一我的。人是视觉动物。若是你掏出手机向面试官展现你的做品,那么你要确保本身作的东西看起来有趣,这点很是值得。

  4. 他们的所做所为看起来确实有点疯狂。正常人不会用胶带把本身的手机绑在购物车上。正常人也不会花那么长时间从 YouTube 上裁剪飞行员视频。什么人才会作这种事?那些不顾一切完成目标的人才会这么干。公司最想雇佣的就是这种人。

Ron 和 Alex 的所做所为可能看起来太夸张,但实际上,这和你在真正的工做中要作的事差很少。这就是要点:当你没有作某事的工做经验时,招聘经理会看你作过的和某事相相似的经历。

幸运的是,这种程度的项目你只要作一两次就好——Ron 和 Alex 就在全部的面试中重复使用以前准备的项目。

所以,若是用一句话来归纳伟大 ML 项目的秘密的话,那就是:用一个有趣的数据集来构建一个项目,这个数据集须要很大的努力来收集,而且尽量地在视觉上有影响力。

原文连接:towardsdatascience.com/the-cold-st…

相关文章
相关标签/搜索