Jeff Dean撰文:谷歌AI 2018研究成果汇总

↑ 点击上方【计算机视觉联盟】关注咱们html

 

 

640?wx_fmt=png

 

谷歌AI团队负责人Jeff Dean今天发表博客文章,总结了谷歌的研究团队在2018年的主要研究成果。git

 

谷歌AI团队负责人Jeff Dean今天发布博客文章,总结了谷歌的研究团队在2018年的主要研究成果。内容包括:算法

  • AI道德原则与以人为本的AI数据库

  • 辅助技术编程

  • 量子计算浏览器

  • 天然语言理解网络

  • 感知研究架构

  • 计算摄影框架

  • 算法和理论机器学习

  • 软件系统

  • AutoML

  • TPU

  • 开源软件和数据集

  • 机器人技术

  • 人工智能在其余领域的应用

  • 医疗AI

  • 研究推广

 

AI道德原则与以人为本的AI

 

在过去的几年里,咱们观察到人工智能的重大进步及其对咱们的产品和数十亿用户平常生活的积极影响。咱们认识到,AI是一种造福世界的力量,它应该被合乎道德地应用,也应该应用于对社会有益的问题。今年咱们发布了《谷歌人工智能原则》(Google AI Principles),提出一系列负责任的人工智能实践,并概述了实施的技术建议。

 

AI用于解决现实社会问题的潜力是显而易见的。一个例子是谷歌在洪水预测方面的工做。这项研究旨在提供关于洪水可能的程度和范围的准确、及时的细粒度信息,使那些在洪水易发地区的人们可以更好地决定如何最好地保护他们本身和他们的财产。

 

 

 

第二个例子是咱们在地震余震预测方面的工做,咱们展现了机器学习模型能够比传统的基于物理的模型更准确地预测余震的位置。更重要的是,因为ML模型的设计是可解释的,科学家们已经可以对余震的行为作出新的发现,这不只能够获得更加准确的预测,并且对余震的理解理解也达到了新的水平。

 

咱们还看到大量的外部研究者,有时与谷歌的研究人员和工程师合做,使用TensorFlow等开源软件应对普遍的科学和社会问题,例如使用卷积神经网络识别座头鲸,检测新的系外行星,识别病变的木薯植物等等。

 

 

 

辅助技术

 

咱们的大部分研究集中在使用ML和计算机科学来帮助用户更快、更有效地完成任务。一般,研究团队与不一样的产品团队协做,研究成果被应用于不一样的产品特性和设置中。一个例子是Google Duplex,这个系统须要研究天然语言和对话理解、语音识别、文本到语音转换、用户理解和有效的UI设计等。

 

其余的例子包括Gmail的Smart Compose工具,使用预测模型给出关于如何撰写邮件的相关的建议;以及声音搜索技术Sound Search,可以让用户快速、准确地搜索到正在播放的歌曲;等等。

 

640?wx_fmt=gif

 

量子计算

 

量子计算是一种新兴的计算范式,它可以解决经典计算机没法解决的具备挑战性的问题。在过去的几年里,咱们一直在积极地进行这一领域的研究,咱们相信该领域正在展现在至少一个问题上的尖端能力(所谓的量子霸权),这将是该领域的一个分水岭事件。

 

在过去的一年里,咱们取得了许多使人兴奋的新成果,包括开发了一种新的72量子比特的量子计算设备:Bristlecone,它能够扩大量子计算机可解决的问题的范围。

 

640?wx_fmt=jpeg

研究科学家 Marissa Giustina 在 Santa Barbara 在圣芭芭拉的量子AI实验室安装Bristlecone芯片

 

咱们还发布了面向量子计算机的开源编程框架Cirq,并探索了如何将量子计算机用于神经网络。最后,咱们分享了咱们在理解量子处理器性能波动方面的经验和技术,并分享了一些关于量子计算机做为神经网络的计算基础的想法。咱们期待2019年在量子计算领域取得激动人心的成果!

 

天然语言理解

 

谷歌的天然语言研究在2018年取得了使人兴奋的成果,既有基础研究,也有以产品为重点的合做。咱们对2017年提出的Transformer架构进行了改进,开发了一种名为Universal Transformer的新的实时并行版本,该版本在翻译和语言推理等天然语言任务中显示出强大的优点。

 

咱们还开发了BERT,这是第一个深度双向、无监督的语言表示模型,只使用纯文本语料库进行预训练,而后可使用迁移学习对各类天然语言任务进行微调。BERT在11个天然语言任务上比之前的最早进的结果有了显著的改进。

 

640?wx_fmt=png

BERT在很是具备挑战性的GLUE基准测试中将最优结果提升了7.6%

 

感知研究

 

感知研究致力于解决让计算机理解图像、声音、音乐和视频的难题,并为图像捕获、压缩、处理、创造性表达和加强现实提供更强大的工具。

 

2018年,咱们的技术提升了Google Photos中组织用户最关心的内容的能力,好比人和宠物。Google Lens和Google Assistant 让用户了解天然世界,实时回答问题,并能在谷歌图像中使用Google Lens作更多事情。

 

640?wx_fmt=png

Google Lens能够帮助你了解你周围的世界

 

在音频领域,咱们提出了一种用于语义音频表示的无监督学习方法,以及对富有表达性的语音合成的显著改进。多模态感知成为一个愈来愈重要的研究课题。Looking to Listen将输入视频中的视觉和听觉线索结合起来,以隔离和增强视频中所需的说话者的声音。这项技术能够支持许多应用,从视频中的语音加强和识别、视频会议,到改进的助听器,尤为是能够应用于多人讲话的场景。

 

在计算资源有限的平台上实现感知变得愈来愈重要。MobileNetV2是谷歌的下一代移动计算机视觉模型,被普遍应用于学术界和工业界。MorphNet提出了一种学习深度网络结构的有效方法,在计算资源限制的条件下,能够全面提升图像和音频模型的性能。最近有关自动生成移动网络架构的研究也代表,继续提升性能是可能的。

 

计算摄影

 

在过去的几年里,手机摄像头的质量和功能都有了显著的提升。部分缘由是手机中实际使用的物理传感器有所改进,但更大的缘由是计算摄影这一科学领域的进步。

 

咱们的研究团队发布了最新研究技术,并与谷歌的Android团队和消费硬件团队紧密合做,将最新技术应用在最新的Pixel和Android手机及其余设备中。2014年,咱们提出了HDR+技术,经过该技术,摄像机捕捉到一组帧,而后在软件中对齐这些帧,并将它们与计算软件合并在一块儿。HDR+的工做最初是为了使图片具备比单次曝光更高的动态范围。然而,经过捕获大量的帧,而后对这些帧进行计算分析成为了一种通用的方法,这种方法在2018年使相机中的许多进步成为可能。例如,它容许在Pixel 2中开发动态照片功能,在Motion Stills中实现加强现实模式。

 

640?wx_fmt=png

Pixel 2 拍摄的运动照片

 

640?wx_fmt=png

Motion Stills 的AR模式

 

今年,咱们在计算摄影研究方面的主要工做之一是创造一种称为“夜视”( Night Sight)的新能力,它使 Pixel 手机相机可以“在黑暗中观看”。

 

640?wx_fmt=png

左:iPhone XS(全分辨率)。右: Pixel 3 的夜视能力(全分辨率)

 

算法和理论

 

算法是谷歌系统的支柱,触及咱们全部的产品,从Google trips背后的routing算法到Google cloud的consistent hashing 算法。在过去的一年里,咱们继续在算法和理论方面进行研究,涵盖了从理论基础到应用算法,从图挖掘到隐私保护计算的普遍领域。

 

咱们在优化方面的工做涉及从机器学习的连续优化到分布式组合优化的各个领域。在前者,咱们研究用于训练神经网络的随机优化算法的收敛性(得到了ICLR 2018年最佳论文),展现了流行的基于梯度的优化方法(如ADAM的一些变体)存在的问题,为新的基于梯度的优化方法提供了坚实的基础。

 

640?wx_fmt=png

ADAM和AMSGRAD在一个简单的一维凸问题上的性能比较

 

软件系统

 

咱们在软件系统方面的大部分研究仍然与构建机器学习模型有关,特别是与TensorFlow有关。例如,咱们发表了TensorFlow 1.0动态控制流的设计和实现。咱们的一些新研究引入了一个称为Mesh TensorFlow的系统,它使得使用模型并行性来指定大规模分布式计算变得很容易。另外一个例子是,咱们发布了一个使用TensorFlow的可扩展深度神经排序库TF-Ranking library。

 

640?wx_fmt=png

TF-Ranking库

 

咱们还发布了JAX,这是一个加速器支持的NumPy变体,支持Python函数按照任意顺序自动区分。虽然JAX不是TensorFlow的一部分,但它利用了与TensorFlow相同的底层软件基础结构(例如XLA),它的一些思想和算法对TensorFlow项目颇有帮助。

 

另外一个重要的研究方向是ML在软件系统中的应用。例如,咱们继续使用分层模型将计算部署到设备上,并有助于学习内存访问模式。咱们还继续探索如何使用学习的索引来替代数据库系统和存储系统中的传统索引结构。正如我去年所写的,咱们认为在计算机系统中使用机器学习方面,咱们只是触及了皮毛。

 

640?wx_fmt=png

在一个NMT模型(4层)中Hierarchical Planner的放置

 

AutoML

 

AutoML,也称为meta-learning,是利用机器学习来自动化机器学习的某些方面的方法。咱们已经在这个领域进行了多年的研究,咱们的长期目标是开发一种学习系统,这种系统可以利用从之前已经解决的其余问题中得到的看法和能力,自动地解决一个新问题。

 

咱们在这个领域的早期工做主要是使用强化学习,但咱们也对进化算法的使用感兴趣。去年,咱们展现了如何使用进化算法为各类视觉任务自动发现最早进的神经网络架构。

 

咱们也探讨了强化学习如何应用于神经网络架构搜索以外的其余问题,咱们的研究证实它可用于1)自动生成图像变换序列,以提升各类图像模型的准确性;以及2)寻找新的符号优化表达式,比经常使用的优化更新规则更有效。咱们在AdaNet上的工做展现了如何获得具备学习能力的快速灵活的AutoML算法。

 

640?wx_fmt=gif

AdaNet自适应地生成神经网络的集合。在每次迭代中,它都度量每一个候选者的集成损失,并选择最佳的一个进行下一次迭代。

 

TPU

 

张量处理器(TPU)是谷歌内部开发的ML硬件加速器,从一开始就设计为支持大规模的训练和推理。TPU帮助谷歌的研究取得许多突破性进展,例如BERT(前面已经讨论过),同时也使世界各地的研究人员可以经过开放源码在谷歌的研究基础上进行构建,并追求本身的新突破。例如,任何人均可以经过Colab在TPU上免费调优BERT, TensorFlow Research Cloud让成千上万的研究人员有机会从更大量的免费云TPU计算能力中获益。

 

640?wx_fmt=png

单个TPU v3设备(左)和TPU v3 Pod的一部分(右)

 

开源软件和数据集

 

发布开源软件和建立新的公共数据集是咱们为研究和软件工程社区作出贡献的两种主要方式。咱们在这个领域最大的努力之一是TensorFlow,这是2015年11月发布的一个很是流行的ML计算系统。咱们在2018年庆祝了TensorFlow的三周年,在这段时间里,TensorFlow的下载量已经超过3000万次,超过1700个贡献者增长了4.5万个提交。在2018年,TensorFlow发布了8个主要版本,并增长了一些主要功能,如eager execution。随着TensorFlow Lite、TensorFlow.js和TensorFlow Probability的推出,TensorFlow生态系统在2018年有了大幅增加。

 

除了继续开发现有的开源生态系统,在2018年,咱们还开发了一个用于灵活、可复现的强化学习研究的新框架,一个用于快速理解数据集的特征的新可视化工具(无需编写任何代码),一个使用TensorFlow.js在浏览器中进行实时t-SNE可视化的库,以及用于处理电子医疗数据的FHIR工具和软件等。

 

640?wx_fmt=png

完整 MNIST 数据集的 tSNE 嵌入的实时演变,该数据集包含60000个手写数字的图像

 

咱们发布了Open Images V4,这是一个包含1540万个边界框的数据集,包含600个类别的190万张图像,以及19794个类别的3010万个通过人工检查的图像级标签。

 

咱们还探索了一些技术,可使用Fluid Annotation更快地建立可视化数据集。

 

640?wx_fmt=png

COCO数据集图像上的Fluid Annotation界面

 

机器人技术

 

2018年,咱们在理解 ML 如何教会机器人在现实世界里行动方面取得了重大进展,该研究教机器人抓取历来没见过的物体,相关论文得到CoRL’18最佳论文。咱们还经过结合ML和基于采样的方法(ICRA'18 最佳论文),在学习机器人运动方面取得了进展。咱们第一次可以在真实机器人上成功地在线训练深度强化学习模型,而且正在寻找新的、基于理论的方法,来学习稳定的机器人控制方法。

 

640?wx_fmt=png

 

人工智能在其余领域的应用

 

2018年,咱们已经将ML应用于物理和生物科学中的各类问题。使用ML,咱们能够为科学家提供至关于数百或数千名研究助理的数据挖掘,从而解放科学家,使他们变得更有创造力和生产力。

 

咱们在Nature Methods上发表的一篇关于神经细胞高精度自动重建的论文提出了一种新的模型,与以往的深度学习技术相比,该模型将链接组学数据自动解释的准确性提升了一个数量级。

 

640?wx_fmt=png

咱们的算法在鸣禽大脑中追踪单个神经突的 3D 过程

 

将 ML 应用于科学的其余一些例子包括:

  • 经过数据挖掘恒星的光曲线,寻找新的太阳系外行星

  • 认识到短DNA序列的起源或功能

  • 自动检测失焦显微镜图片

  • 自动将质谱输出映射到肽链

 

640?wx_fmt=png

通过预训练的 TensorFlow 模型能够对Fiji (ImageJ)细胞显微镜图像斑块的蒙太奇进行聚焦质量评估。

 

医疗AI

 

在过去的几年里,咱们一直致力于将ML应用于医疗领域,这是一个影响咱们每一个人的领域,也是一个咱们相信ML能够经过加强医疗专业人员的直觉和经验而产生巨大影响的领域。咱们在这个领域的通常方法是与医疗机构合做解决基础研究问题(利用临床专家的反馈使咱们的结果更加可靠),而后将结果发表在科学和临床杂志上。一旦该研究获得临床和科学验证,咱们将进行用户和HCI研究,以了解如何将其应用于实际的临床环境。2018年,咱们将工做范围扩大到计算机辅助诊断和临床任务预测。

 

在2016年末,咱们发表的一项研究代表,通过训练的用于评估视网膜眼底图像以检测糖尿病视网膜病变迹象的模型,其表现与美国医学委员会认证的眼科医生至关,甚至略好于后者。

 

2018年,咱们进一步代表,经过使用由视网膜专家标记的图像进行训练,模型的表现已经与视网膜专家相媲美。后来,咱们发表了一项评估,显示了眼科医生与ML模型协同判断,如何比单独作决定更准确。咱们与Verily的同事合做,在印度的Aravind眼科医院和泰国卫生部下属的Rajavithi医院等10多个地方部署了这个糖尿病视网膜病变检测系统。

 

640?wx_fmt=png

ML评估糖尿病视网膜病变

 

咱们还发表了一项关于机器学习模型经过视网膜图像评估心血管风险的研究,这是一项医学专家和眼科专家都认为至关了不得的研究。这为一种新的、非侵入性的生物标志物提供了早期有但愿的迹象,这种标志物能够帮助临床医生更好地了解患者的健康情况。

 

咱们今年也继续病理学,展现了如何使用ML提升前列腺癌分级的准确度、利用深度学习检测转移性乳腺癌,并开发了一个原型的加强现实显微镜,能够经过来自计算机视觉模型的视觉信息帮助病理学家和其余科学家。

 

在过去的四年里,咱们进行了一项重大的研究,利用电子健康记录来进行临床相关的预测。2018年,咱们与芝加哥大学、加州大学旧金山分校和斯坦福大学合做,在Nature Digital Medicine上发表了一篇论文,展现了ML模型如何应用于识别电子病历,可以对各类临床相关任务作出比当前临床最佳实践准确性更高的预测。做为这项工做的一部分,咱们开发了一些工具,使得即便在彻底不一样的任务和彻底不一样的基础EHR数据集上建立这些模型变得很是容易。咱们还改进了基于深度学习的变量调用DeepVariant的准确性、速度和实用性。该团队最近在《天然-生物技术》杂志上发表了一篇同行评议的论文。

 

研究推广

 

咱们以多种不一样方式与外部研究社区进行交流,包括教师参与和学生支持。咱们很荣幸在本学年招收了数百名本科生、硕士生和博士生做为实习生,并为北美、欧洲和中东的学生提供多年的博士生奖研金(Ph.D. fellowships)。

 

做为这个奖学金项目补充的是Google AI Residency项目,这个项目容许想要进入深度学习研究的人在谷歌与研究人员一块儿工做并接受他们的指导。现在,Google AI Residency已进入第三个年头,学员们被安插在谷歌全球的各个团队中,从事机器学习、感知、算法和优化、语言理解、医疗保健等领域的研究。

 

每一年,咱们也经过Google Faculty Research Awards program支持一些教师和学生进行研究项目。

 

咱们认为,公开地为更普遍的研究社区做出贡献是支持健康和富有成效的研究生态系统的关键部分。除了开源和公开数据集以外,咱们的许多研究都在顶级会议和期刊上公开发表,并积极参与、组织和赞助各类不一样学科的会议。

 

原文连接:

https://ai.googleblog.com/2019/01/looking-back-at-googles-research.html

640?wx_fmt=gif

声明:本文来源于网络,【新智元

若有侵权,联系删除

热文荐读

 

2018年12月精选文章目录一览

亲身经历2019年校招8个大厂心得体会,纯干货分享(大疆、百度...)

重磅!图森王乃岩团队最新工做—TridentNet:处理目标检测中尺度变化新思路
GANs最新综述论文: 生成式对抗网络及其变种如何有用【附pdf下载】
算法岗凤毛麟角热爆了,全球AI大厂薪酬大起底
史上最全!计算机科学领域顶会最佳论文大合集:微软研究院最多,清华排24MIT的周博磊博士如何解释深度学习模型(附PPT)
【资源下载】512页IBM沃森研究员Charu最新2018著做《神经网络与深度学习》(附下载连接)
人工智能相关领域的国际顶尖会议介绍

640

640