想去Google Brain实习吗?如何申请?Jeff Dean等牛人很认真地回答了这些问题

编译 | AI科技大本营(rgznai100)
参与 | 鸽子、Shawn

导语:昨晚谷歌大脑(Google Brain)在Reddit上举办了一年一度的在线答疑活动AMA,Google Brain负责人Jeff Dean,Google首席科学家,Google Brain团队技术负责人Vincent Vanhoucke和其同事热情地回答了网友们提出的各类问题。AI科技大本营从中选取了一些表明性的问题,经过这些问答你能够了解如何申请谷歌的实习项目、申请注意事项、申请及面试建议、实习生的平常工做,还有谷歌大脑的大牛们对深度学习等领域将来发展的见解。html

关于实习、职业选择:

Q:几个月前我在大家网站上看到一份关于实习项目的申请说明,里面有说该项目不要求申请人具备很是好的机器学习背景。我是一名生物统计学流行病研究者,主要工做是健康调研,我很想申请这个项目。个人问题是:最终录取的申请人中有多少人并不是来自机器学习背景,他们的培训与机器学习研究人员的培训有什么不一样?面试

Jeff Dean(Google Brain):在第一期实习项目的27名实习生中,大约1/3的人具备计算机科学背景,1/3有数学、统计学或应用数学背景,1/3在STEM领域(如神经学、计算生物学等)有深厚的背景。今年录取的35名实习生状况也差很少,事实上其中一名实习生仍是一名流行病学博士。几乎全部实习生都有机器学习方面的经验,尽管他们从未接受过关于ML的学术培训。网络

Q:我有几个关于谷歌大脑实习项目的问题。第一批实习生来自于多个不一样的背景:应届毕业生、经验丰富的软件工程师和博士生等,那么机器学习

  • 这是否意味着每种背景都有相应的录取配额?例如,经验丰富的软件工程师不会与博士生一块儿竞争实习生资格。分布式

  • 大家但愿在不一样背景的申请人身上找到什么样的特质?在这些背景中,我对应届毕业生和经验丰富的软件工程师背景特别感兴趣。函数

  • 下一批申请会在何时开始?如今已经9月了。工具

sallyjesm(Google Brain):咱们并非根据背景或经验水平挑选必定数量的实习生。今年实习生的背景很是多样,咱们没有制定任何特定的配额。咱们看重的是申请人是否具备巨大的研究潜能,是否能在这样的项目中得到很大的成长。 咱们在申请人身上寻找的是技术能力和研究兴趣,而不是特定的资历。下一批申请将在10月2日开放,于1月初结束。请提交完整的申请材料并提供您以前在GitHub上的连接或者您以前在ML领域的其余做品。学习

Q:我刚开始读研究生,并有选修ML方面的课程,我但愿参加谷歌大脑实习项目。将来我但愿进入ML/AI研究领域(偏重于基础和理论,应用较少),我以前曾在4家大型公司中担任实习软件工程师并进行了ML上的一些应用。我该怎样作才能增长从此一两年在谷歌大脑团队工做的机会?测试

sallyjesm(Google Brain):恭喜你成为一名研究生!根据我与一些实习生的讨论经验,我认为在研究生阶段亲自动手完成项目很是重要。由于有了这样的经历,面试就会变得很是有趣,无论是对您仍是对谷歌大脑面试官来讲。网站

从实践角度看,你能够彻底控制两个问题:

  • 准备完整的申请材料;

  • 完成申请。请确保向招聘团队提供所要求的所有材料(例如,避免没法按时提交所需文件)。若是头一年申请不成功,请在得到更多经验后考虑再次申请。

Q:在谷歌大脑团队工做是什么体验?您的平常工做是什么?你决定某人是否适合您团队的缘由是什么?

sara_brain(Google Brain):我是谷歌大脑的一名实习生。今年共招了35名实习生,咱们都在山景城同一区域内工做(可是还有一些实习生在旧金山工做)。天天吃早餐时,我一般会与另外一名实习生讨论他们的研究项目。接下来,我会阅读各类与个人研究领域(卷积神经网络的透明度)相关的论文,使用TensorFlow编码,与个人项目导师和合做伙伴开会。谷歌大脑的研究人员很是注重合做,所以我一般会与研究相似问题的研究员一块儿吃午饭或晚餐。

谷歌大脑的实习平生常还会作一些其余有趣的事情:访问学者并进行研究讨论(经常会发现之前从未想过的论题,例如将深度学习应用到太空探索中);每两周实习生们会聚一次(这有助于咱们跟进其余实习生的研究);学习TensorFlow最新的进步并直接提供反馈;在数千个GPU上运行试验。

去年的实习生Colin发表了一篇很好的博文,详细描述了他的实习体验:http://colinraffel.com/blog/my-year-at-brain.html

Q:你是怎么进入AI领域和Google的?

alextp(Google Brain):我在本科期间就对机器学习产生了浓厚的兴趣,以后我又得到了一个博士学位。我在博士阶段曾在Google实习,在这里工做了几年后转入了谷歌大脑。有趣的是,我记得我第一次认真四口机器学习是在一堂数字分析课上,当时咱们正在讨论多项式近似值函数插值和外推法;可以被表达为数字函数的对象有不少,咱们还能够外推其余什么东西?这个问题一会儿迷住了我。那一年晚些时候,我发现了ML这门科学并今后为之着迷。

将来预测

Q:你认为ML领域接下来最大的挑战是什么?

Jeff Dean(Google Brain):目前咱们倾向于构建只能完成一个或少数几个特定任务的机器学习系统(有时候这些任务很是困难,例如将一种语言翻译成另一种语言)。我认为咱们真的须要设计这样一种简单的机器学习系统:它可以解决数千或数百万个任务,并能从解决这些任务的过程当中得到经验,用以学习自动解决新的任务;根据具体任务激活模型上不一样的模块。实现这种系统须要解决不少问题。今年早些时候我在斯坦福大学的Scaled ML会议上作了一个演讲,我在第80页以后的幻灯片中提供了一些关于这个想法的材料(第62页后面有提供一些背景知识)。

Vincent Vanhoucke(Google Brain)使深度网络稳定地适应来自弱监督数据的在线更新仍然是个大问题。解决这个问题,将使真正的终身学习成为可能,并使得许多应用程序开放。另外一个巨大的障碍是,像GAN 或Deep RL 这样领域内最激动人心的发展尚未到达“批量归一化”的时刻:这个时刻到来以后,一切都默认就“想要训练”,再也不须要一个超参数一个超参数地调整。

固然,这些进展还不够成熟,还没从有趣的研究转变成咱们能够依赖的技术。如今,不进行大量的精确微调,就没法可预测地训练这些模型,所以很难将它们归入到更精细的系统中。对这些模型进行可预测的训练,这致使咱们很难把它们用到更复杂的系统中。

Q:你认为深度强化学习和/或机器人科学最有可能的将来是?

Vincent Vanhoucke(Google Brain):过去10年间大部分机器人开发都有这样一个前提:机器人不具备任何感知能力。结果,该领域的不少研究都集中于开发在很是受限的环境中工做的机器人。如今咱们掌握了新的计算机视觉“超级能力”,咱们能够完全颠覆该领域,从新构建一种以感知未知环境和丰富反馈为中心的机器人系统。深度强化学习做为一种最有可能的实现方法,它能够将感知做为控制反馈循环的中心,可是这种技术离普遍应用还有很长一段距离。

咱们须要搞清如何使它更容易分配奖励,训练更可靠,处理样本的效率更高。我在国际人工智能协会(AAAI)会议上讨论了一些这方面的挑战。如今咱们可让系统经过学习第三方视觉来进行模仿,用以解决任务分配问题和样本处理效率问题,对此我感到十分激动。若是你对该领域感兴趣,咱们将会直播几个月内即将召开的首届机器人学习会议。

具体技术问答

Q:大家是否计划为ONNX(开放神经网络交换)交换格式提供支持?若是没有这方面的计划,请问为何?

[1]https://research.fb.com/facebook-and-microsoft-introduce-new-open-ecosystem-for-interchangeable-ai-frameworks/

Jeff Dean(Google Brain):他们几天前在博客上发表了这篇文章,咱们也是在那时候了解到这个消息。若是这种格式有很大用处,我怀疑TensorFlow社区是否会为它提供支持。2015年11月,咱们发表了开源声明,自那时起TensorFlow源代码库中就有提供咱们保持和恢复模型数据和参数所用的格式。

Q:两个问题

  1. 你们都在谈论ML/Al/DL领域取得的成功。您能谈谈您在尝试使用DL解决(研究或实际)问题时遇到的一些挫败或挑战吗?最好是在解决大型监督学习任务时遇到的挫败和挑战,在此类任务中DL方法一般均可行。

  2. 谷歌大脑团队怎么看待目前的无监督学习方法?你认为接下来几年会出现较大的概念进步吗?

Vincent Vanhoucke(Google Brain):挫败:咱们团队中的几个同事曾尝试与Bob Mankoff合做用《纽约客》(New Yorker)杂志上的漫画训练一个神经网络标题生成器,Bob是该杂志的漫画编辑(我刚看到他今年有发表一篇论文)。结果效果不是很好。这个生成器生成的标题一点也很差笑。虽然根据DL标准咱们拥有的数据并不充分,可是咱们能够用其余类型的漫画来预训练视觉表达。我仍然但愿咱们在这方面能够取得成功,可是也许仍是要用旧方法。

无监督学习:我认为人们终于意识到自动编码是个糟糕的想法,无监督学习可行,而监督学习不可行,这二者之间的差别主要在于预测的是具备因果关系的将来(下一个单词或下一帧)而不是如今(自动编码)。看到这么多人开始用咱们去年开源的推送数据集对他们的“将来预测”进行基准测试,我感到很是高兴,这确实出乎意料。

Q:大家有没有试着为Tensorflow和机器学习创造一种标准的编码方式和/或方法?人们彷佛使用多种不一样的方法来编码模型,有些方法很难解释。这个问题与第一个问题没多大关系,Keras将会加入Tensorflow,Learn是否会被淘汰?同一库有两种不一样的高级API彷佛有点奇怪。

wickesbrain(Google Brain):个人建议是最好坚持使用最高级的API来解决问题。这样的话,你就会自动利用咱们在系统内部做出的改进,你的代码最不可能在将来过期。

如今咱们有了完整的tf.keras(真正意义上的),咱们正在努力统一Keras应用和先前的TF概念。这项工做立刻就快完成了。咱们的目标是:tf.keras能够轻易地从一处收集构建一个完整的Keras API spec所需的全部表征(symbols)。注意,Keras并不适用于全部使用实例,尤为是分布式训练和较为复杂的模型,这就是为何咱们使用tf.estimator.Estimator的缘由。咱们会继续改进Keras与这些工具的结合。

咱们不久以后会开始淘汰部分contrib,包括全部contrib/learn。许多人还在使用这种工具,淘汰它会须要至关的时日,咱们并不想没必要要地忽然终止人们对它的使用。

关于学习资源

Q:大家是怎么跟进行业最新进展的?具体说的话,大家推荐哪些能够体现前沿技术进展的杂志/会议/博客/公司?

Jeff Dean(Google Brain):顶级ML会议上发表的论文;Arix Sanity;谷歌学术(Google Scholar)上的 "My Updates"功能;研究人员指出和讨论的有趣论文;Hacker News 或者本subreddit中讨论的有趣文章。

相关文章
相关标签/搜索