下一代技术：李飞飞靠它打造Cloud AutoML，吴恩达力挺

时间 2019-12-02

原文原文链接

本文由「AI前线」原创，原文连接：下一代技术：李飞飞靠它打造Cloud AutoML，吴恩达力挺
编辑 & 策划｜Natalie
编译｜姚佳灵、Debra

AI 前线导读：” 迁移学习是想要实现全民玩 AI 的谷歌 Cloud AutoML 背后的核心技术，也是吴恩达在 NIPS 2016 上力推的机器学习商业化又一利器，那么你对迁移学习足够了解吗？谷歌官方说的“不用写代码的迁移学习”真的有那么好用？你不知道其实微软早在 8 个月前就推出了一样的服务 Custom Vision 吧？今天咱们就来唠一唠这个潜在的下一代潮流技术，还有今天刷屏的 Cloud AutoML。”算法

今天谷歌推出 Cloud AutoML、旨在实现全民玩 AI 的消息又刷爆了全部科技媒体头条和全部人的朋友圈。凌晨时分，李飞飞连发三条推特，发布了谷歌最新 AI 产品——Cloud AutoML Vision，“无需精通机器学习，每一个人都能用这款 AI 产品定制机器学习模型。”网络

AutoML Vision 是 Cloud AutoML 这个大项目推出的第一项服务，提供自定义图像识别系统自动开发服务。根据谷歌介绍，即便是没有机器学习专业知识的的小白，只需了解模型基本概念，就能借这项服务轻松搭建定制化的图像识别模型。 只需在系统中上传本身的标签数据，就能获得一个训练好的机器学习模型。整个过程，从导入数据到标记到模型训练，均可以经过拖放式界面完成。架构

除了图像识别，谷歌将来还计划将 AutoML 服务拓展到翻译、视频和天然语言处理等领域。机器学习

是否是超厉害！是否是棒棒哒！是否是以为小白能够翻身吊打机器学习工程师了！等等，先别激动，这事确实挺棒的，但事情可能没有你想象的那么简单。工具

AI 前线注意到了谷歌官方博客中提到的 Cloud AutoML 背后的核心技术——迁移学习（Transfer Learning）。经过迁移学习，谷歌就能将已训练完成的模型（又叫预训练模型，Pre-trained models），转移到新的模型训练过程，从而用较少许数据训练出机器学习模型，而 Cloud AutoML Vision 借助的预训练模型，正是“又大又好”的图像数据集 ImageNet 和 CIFAR。此外，谷歌还经过 learning2learn 功能自动挑选适合的模型，搭配超参数调整技术（Hyperparameter tuning technologies）自动调整参数。性能

无独有偶，在去年的 NIPS 2016 讲座上，吴恩达也表示：“在监督学习以后，迁移学习将引领下一波机器学习技术商业化浪潮。”学习

那么，有了迁移学习做为核心技术，Cloud AutoML 会成为下一个机器学习大杀器吗？测试

专家观点大数据

Cloud AutoML 真的有那么“震惊！厉害！NB！”吗？google

AI 前线在知乎上刷到了这么一个问题“如何评价谷歌刚推出的 Cloud AutoML？”，回答者中大多都对微软表示心疼。其实早在 8 个月以前，微软就已经发布了几乎同样的服务（也不用写代码、不用调参数，会拖控件就能帮你训练深度学习模型）。

答主“grapeot”表示：“真是心疼微软 pr 部门。我做为一个软狗到今天才知道 custom vision 这个东西。google 那边发布会都没开，就发了俩 twitter 媒体就轰动了。高下立判，高下立判啊！”也有答主调侃谷歌是一家“超一流的广告公司”。

因而 AI 前线也就“谷歌的 Cloud AutoML 到底有多厉害？”等一系列问题咨询了几位业界技术专家，获得的答复很有点回味无穷。

来自 IBM 的专家告诉 AI 前线，这仍是个新兴的领域，他不认为短时间内会真正产生落地的影响力和实际效果。神经网络来训练神经网络发展时间不长，因此 Cloud AutoML 的效果还须要经过实践来进一步检验。

另外一位不具名技术专家认为，Cloud AutoML 目前推出的第一项服务是针对 Vision 的，ImageNet 数据集够好够大，因此大多状况下确实可以迁移出不错的效果，并且视觉如今属于比较好作的领域了，若是是 NLP、CTR 这些领域，则要难不少。你们如今有点“谷歌爸爸作的确定都是好的”的心理，不得不说谷歌 PR 能力确实厉害。 固然，经过迁移学习实现 AutoML 这件事情自己确实给了从业者很大的想象空间，能够打破数据孤岛，更低成本地解决更多问题，好比用电商的数据去作传统行业的推荐，或者一个新公司没有数据但能够用其余公司或行业数据来作事情。

谷歌介绍称 AutoML Vision 提供了简洁的图形化用户界面，只需导入数据和拖拽组件就能打造全新模型，更有媒体报道直接突出“无需写一行代码”，那么真的能够不用写代码吗？这位专家讳莫如深地告诉 AI 前线：“不写代码容易作，不写代码能作出好结果难呀。”

第四范式是一家致力于利用机器学习、迁移学习等人工智能技术进行大数据价值提取的公司，而第四范式的联合创始人、首席科学家杨强教授更是迁移学习领域的奠定人和开拓者，他发表论文 400 余篇，论文被引用超过三万次。

此次 Cloud AutoML 推出后，不少读者也对第四范式怎么看表示强烈关切。 所以，AI 前线也将问题抛给了第四范式先知平台架构师陈迪豪，他对与咱们的问题作了十分详尽的解答，整理以下：

AI 前线：你以为谷歌 Cloud AutoML 最大的亮点有哪些？

陈迪豪： Cloud AutoML 最大的亮点是把完整的机器学习工做流作成云端易用的产品，用户只须要在界面上拖拽样本数据就能够完成数据处理、特征抽取、模型训练等全流程，针对图像分类这个场景在易用性上作到了极致。

AI 前线：谷歌开发 Cloud AutoML 系统的技术难度有多大？

陈迪豪： 目前根据 Cloud AutoML 的介绍，开发一个针对图像分类的 Cloud AutoML 难度并不大，经过对已经训练好的 Inception 模型在新数据集上进行 finetune，能够获得一个效果不错的新模型，这部分在 TensorFlow 官方文档就有介绍，开发者甚至能够在本地开发出一个“命令行版本的 Cloud AutoML Vision”。固然 Google 在过往的论文也介绍过 Learning to learn 和自动构建神经网络等算法，这些算法对于样本规模和计算能力有更高的要求，目前在业界仍处于研究阶段。

AI 前线：Cloud AutoML 使用了迁移学习等技术，用户只要上传不多的标注数据就能生成本身的模型，却是很方便，但新模型的效果能有多好？能不能从技术角度解释一下呢？

陈迪豪： 前面已经提到，CloudML AutoML 并无公开生成模型的算法细节，多是基于 finetune 对模型参数进行调优，或者是用 AutoML 论文的方法从新构建神经网络模型。目前看使用 finetune 可能性较大，以使用 TensorFlow 对 Inception 模型进行 finetune 为例，用户只须要提供很是少许的标注数据便可，首先加载官方在 ImageNet 数据集上训练完成后获得的模型参数，而后在新数据集上训练神经网络的最后一层，根据 Label 和预测值更新部分的参数，很快就能够获得一个准确率超过 90% 的图像分类模型。固然也不排除 Google 已经使用或者将来将使用 AutoML 论文的算法，使用用户提供的数据集和 ImageNet 等已经标记好的数据集进行从新训练模型，模型的参数就是构建神经网络结构的参数，模型的目标就是找到图像分类正确率最高的神经网络结构，从论文的结果看在数据量和计算能力足够的状况下，机器训练获得的模型与人类设计最顶尖的模型效果接近，若是应用到 Cloud AutoML 场景下效果也不会太差。

AI 前线：你认为 Cloud AutoML 会给人工智能将来的发展带来什么样的影响？

陈迪豪： Google 的 Cloud AutoML 只是 AutoML 的一种使用场景，在此以前包括微软、亚马逊、国内的第四范式等公司都已经有 AutoML 的实际场景了，Cloud AutoML Vision 只是解决了在图像分类领域更低门槛的建模场景而已，在其余 State of the art 的机器学习领域并无你们预期的革新式影响。固然 Google Cloud AutoML 的推出迅速引发了国外内对于自动机器学习模型构建的关注，为 AutoML 的研究和落地提供了强力的背书，相信能推进这个领域在将来有更好的发展。

AI 前线：在你看来，Cloud AutoML 会不会帮谷歌在一众云端机器学习服务厂商（微软 Azure、AWS、IBM 等）中脱颖而出？

陈迪豪： 在我看来目前 Google Cloud AutoML 还不是一个通用场景的机器学习解决方案，并不能可能直接淘汰微软、亚马逊等云机器学习平台。固然咱们很是期待 Google Cloud 和 Google Brain 部门在 AutoML 后续的工做。随着 AutoML 算法的成熟和通用化，将来会有更多低门槛、贴近用户的机器学习建模范式出来，对人工智能行业也是很大的利好。

AI 前线：你所在公司推出的机器学习工具目前推广状况如何？将来是否也会计划推出相似 Cloud AutoML 这样的服务？或者还有别的比较重要的发展方向？

陈迪豪： 我目前在第四范式担任先知平台架构师，在去年乌镇互联网大会上发布的先知 3.0 就已经集成了 AutoML 功能，经过自研的 FeatureGo 自动特征组合算法和开源的自动调参算法等能够实现从特征抽取、特征组合、模型训练、超参数调优到模型上线等全机器学习工做流。目前咱们在推荐系统提供给用户的模型所有以 AutoML 算法生成的。在 TensorFlow 上训练模型实现 Learning to learn 也是咱们的关注重点，除此以外像大规模的数据拼接、时序特征抽取、模型灰度发布、工做流可视化以及自学习闭环都是切实的业务痛点，咱们从算法和产品维度致力于打造一个比 Google Cloud AutoML 更低门槛、而且更落地的机器学习平台，也欢迎与同行们多多交流。

如下内容节选编译自知名 AI 博主、爱尔兰国立大学 NLP 博士生 Sebastian Ruder 标题为“迁移学习：机器学习的下一个前线”博文：

迁移学习究竟是什么？

在机器学习经典的监督学习场景中，若是咱们打算为某个任务和 A 域训练一个模型，假设咱们为相同的任务和域提供了标记好的数据。咱们能够在图 1 中清楚地看到，对于咱们的模型 A，训练和测试数据的任务和域是同样的。稍后，咱们会给出一个任务和一个域的详细定义。如今，咱们假设一个任务是咱们的模型要执行的目标，好比，在图片中识别物体；一个域是咱们的数据来源，好比，在旧金山咖啡店拍摄的图像。

图 1：机器学习中经典的监督学习的创建

如今，咱们能够在这个数据集上训练模型 a，并指望它在相同任务和域的不可见数据上表现良好。在另外一种状况下，当给定其余任务或域 B 的数据时，咱们须要再次标记相同任务或域的数据，以便训练新的模型 B，这样咱们就能够指望它在这些数据上表现良好。

当咱们没有足够的标记数据为咱们所关注的要训练的可靠模型的任务或域时，经典的监督式学习范式就会崩溃。

若是咱们想要训练一个模型来检测夜间图像上的行人，咱们能够应用一个已经在相似的领域进行过训练的模型，好比：在日间图像上用过的。然而在实践中，因为模型继承了训练数据的误差，而且不知道如何推广到新的领域，咱们每每会经历性能的恶化或模型的崩溃。

若是咱们想要训练一个模型来执行一个新的任务，好比检测骑自行车的人，咱们甚至不能重用一个现有的模型，由于任务之间的标记是不一样的。

迁移学习使咱们可以利用已经存在的某些相关任务或域的标记数据来处理这些场景。咱们尝试把解决源域任务所得到的知识存储在源域中，并将其应用于咱们感兴趣的问题，如图 2 所示。

图 2：迁移学习设置

在实践中，咱们试图从源头转移尽量多的知识到咱们的目标任务或域中。这种知识的形式由数据决定：它能够涉及物体是如何组成的，以便咱们更容易识别新物体；能够是关于人们用来表达本身观点的通常词汇等等。

为何迁移学习这么重要？

前百度首席科学家、斯坦福大学教授吴恩达（Andrew Ng）曾在广受欢迎的 NIPS 2016 讲座中说过：在监督学习以后，迁移学习将会成为机器学习商业成功的下一个推进力。

图 3：Andrew Ng 在 NIPS 2016 讲解迁移学习

他特地在白板上画了一张图，我尽量忠实地复制成下面的图 4（很抱歉，我没有标记坐标轴）。据吴恩达介绍，迁移学习将成为机器学习在行业中取得成功的关键因素。

图 4：Andrew Ng 所介绍的在机器学习行业中取得成功的推进力

毋庸置疑，迄今为止机器学习在行业中的使用和成功主要是由监督学习推进的。在深度学习的进步、功能更强大的计算工具和大型标记数据集的推进下，监督学习已经从新激发了人们对人工智能的兴趣、融资和收购的浪潮，特别是近几年来，咱们已经看到机器学习的应用成为咱们平常生活的一部分。若是咱们无视那些反对者和另外一个 AI 冬季的预兆，而是相信 Andrew Ng 的预见，这样的成功可能会继续下去。

然而，不太清楚的是，为何尽管迁移学习已经存在了几十年，可是目前在行业上的应用仍是不多，将来是否会看到 Andrew Ng 所预测的爆炸性增加呢？甚至，与其余机器学习领域，如无监督学习和强化学习相比，迁移学习目前受到的相对较少的关注，而那些领域已经愈来愈受到关注：无监督学习——从图 5 中能够看出，根据 Yann LeCun 的观点，它是寻求通用 AI 的关键因素—— 已经看到了兴趣的复苏，特别受到了生成敌对网络的推进。

反过来，由谷歌 DeepMind 领头的强化学习，已经引领了 AlphaGo 的成功，并在现实世界中取得了成功，例如将谷歌的数据中心的冷却成本下降了 40%。这两个领域虽然有但愿，但在可预见的将来可能只会产生相对较小的商业影响，并且大部分仍停留在尖端研究论文的范围内，由于它们仍然面临许多挑战。

图 5：在 Yann LeCun 所展现的蛋糕里，显然没有迁移学习。

迁移学习有何特别之处？

接下来，咱们来看看是什么让迁移学习有所不一样。在咱们看来，它们激发了 Andrew Ng 的预见，并概述了为何如今是关注迁移学习的时候。

目前在行业中对机器学习的应用呈现二元化：

一方面，在过去的几年里，咱们已经得到了训练愈来愈精确的模型的能力。咱们如今处于多任务阶段，最早进的模型已经达到了这样一个水平，它们的性能是如此的好以致于对用户来讲，其再也不是阻碍。有多好呢？在 ImageNet 上最新的残差网络（residual networks）实现了在识别对象时超过人类的性能；谷歌的智能回复可以自动处理 10% 的移动端回复任务；语音识别错误率不断降低，比打字输入更准确；咱们能够像皮肤科医生同样自动识别皮肤癌；谷歌的 NMT 系统用于 10 多种翻译语言对的产生；百度能实时生成逼真的语音；这样的事情不胜枚举。这种成熟程度可以将这些模型大规模部署到数百万用户，而且已经被普遍采用。
另外一方面，这些成功的模型很是须要数据，而且依靠大量的标记数据来实现其性能。对于某些任务和领域，这些可用数据是多年来一直苦心经营的。在少数状况下，它是公开的，好比， ImageNet，可是大量的标记数据一般是专有的或昂贵的，好比许多语音或 MT 数据集，由于是它们造成了竞争优点。

与此同时，在不熟悉的环境中应用机器学习模式时，模型面临着之前从未见过、不知如何处理的诸多状况；每一个客户和每一个用户都有本身的偏好，拥有或产生与用于训练的数据不一样的数据；一个模型被要求执行许多与被训练的任务相关但不相同的任务。在全部这些状况下，咱们目前最早进的模型，尽管在它们所接受的任务和域上表现出跟人类同样甚至是超人类的表现，但在性能方面却会遭受重大损失，甚至彻底崩溃。

迁移学习能够帮助咱们处理这些新场景，而且这对于哪些标记数据稀缺的任务领域，要使机器学习可以规模化应用，迁移学习是必不可少的。到目前为止，咱们虽然已经将模型应用到了很多极具影响力的任务领域，但这些大可能是数据“低树果实”，为了长远发展，咱们必须学会将得到的知识转移到新的任务领域。

迁移学习还有哪些应用场景？

从模拟中学习

我认为迁移学习在未来会更多地应用于从模拟中学习，这也让我感到很兴奋。对于许多依靠硬件进行交互的机器学习应用程序来讲，从现实世界中收集数据和训练模型不是昂贵、耗时，就是太危险。所以，以其余风险较小的方式收集数据是比较明智的。

在这方面，模拟是首选工具，并已在实践中被用于许多先进的机器学习系统。从模拟中学习，将得到的知识应用到实践是迁移学习的其中一个应用场景。由于源域和目标域之间的特征空间是相同的（一般二者都依赖于像素），可是模拟和现实场景中的边界几率分布不一样，尽管随着模拟更接近现实，这种差别逐渐减少，但模拟场景中的物体和来源看起来仍然不一样。同时，因为难以彻底模拟现实世界中的全部反应，模拟与现实世界中的条件几率分布也不尽相同，例如，物理引擎不能彻底模仿现实世界中物体的复杂交互。

图 6: 谷歌无人驾驶汽车（来源: 谷歌研究院博客）

然而，从模拟中学习也有好处，便可以更轻松地收集数据，这是由于模拟学习能够并行多个学习案例，在轻松绑定和分析物体的同时进行快速训练。所以，对于须要与现实世界进行交互的大型机器学习项目，它能够做为首选，好比自动驾驶汽车（参见图 6）。据谷歌的自动驾驶汽车技术负责人 Zhaoyin Jia 介绍，“若是你真的想作一辆自动驾驶汽车，模拟是必不可少的”。Udacity 已经开源了其用于训练自动驾驶汽车工程师的纳米级模拟器，如图 7 所示。OpenAI 的 Universe 也有可能会使用 GTA5 或其余视频游戏来训练自动驾驶汽车。

图 7：Udacity 的自动驾驶汽车模拟器（来源：TechCrunch）

另外一个模拟学习将发生关键做用的应用领域是机器人技术：在一个真正的机器人上训练模型速度太慢且成本很高。从模拟中学习，并将知识迁移到实践中的机器人能够缓解这个问题，而且最近得到了很大的关注 [8]。图 8 是在现实世界和模拟场景中的数据操做任务示例。

图 8：机器人和模拟图像（来源：Rusu 等，2016）

最后，从模拟中学习是通向通用 AI 不可或缺的部分。训练一个代理直接在现实世界中实现通用人工智能代价太大，而且在初期没必要要的复杂性会妨碍学习的效果。相反地，基于模拟环境进行学习会事半功倍，如图 9 中可见的 CommAI-env。

图 9:Facebook 人工智能研究院的 CommAI-env(来源：Mikolov 等， 2015)

适应新的域

虽然从模拟中学习是领域适应的一个特殊案例，咱们仍是有必要列出一些其余适应领域的例子。

在计算机视觉方向，领域适应是一个常见的需求，由于标签上的信息很容易获取，而咱们真正关心的数据是不一样的，不管是识别在图 10 中所示的自行车，仍是在陌生环境中的其余物体。即便训练和测试数据看起来并没有差别，但其中仍然可能包含对人类来讲难以察觉，并会致使模型产生过分拟合的细微误差。

图 10：不一样的视觉领域（来源：Sun 等，2016）

另外一个常见的领域适应场景，是适应不一样的文本类型：标准的 NLP 工具，例如词类标注器或解析器，一般会使用诸如《华尔街日报》等自古以来就用于评估模型的新闻数据进行训练。然而，使用新闻数据训练的模型难以适应更新颖的文本形式，如来自社交媒体的消息。

图 11：不一样的文本类型

即便在好比产品评论这样的一个领域，人们也会用不一样的词语来表达一样的概念。所以，使用一种类型评论的文本的训练模式应该可以区分该领域的专业词汇和普通人使用的词汇，以避免被领域的转换所迷惑。

图 12：不一样的主题

最后，上述问题只是涉及到通常的文本或图像类型，可是若是将之扩大到与我的或用户群体有关的其余领域，问题就会被放大：好比语音自动识别（ASR）的状况。语音有望成为下一个大有可为的领域，预计到 2020 年，语音搜索的占比将达 50％。传统上，大多数 ASR 系统在 Swithboard 数据集上进行评估，该数据集由 500 个说话者构成。标准口音还好，但系统很难理解移民、有口音、有言语障碍的人或儿童的语音。如今咱们比以往任什么时候候都须要可以知足我的用户和少数群体需求的系统，以确保每一个人的声音都能被理解。

图 13：不一样的口音

跨语言的知识迁移

最后，在我看来，迁移学习的另外一杀手级应用，是将从一种语言学习中得到知识应用到另外一种语言，我已经写过关于跨语言嵌入模型的文章。可靠的跨语言适应方法将使咱们可以利用已拥有的大量英文标签数据，并将其应用于任何语言，尤为是不经常使用和数据缺少资源的语言。鉴于目前的最新技术水平，这彷佛仍然是个乌托邦，但 zero-shot 翻译等取得的最新进展预示着咱们有望在这方面更进一步。

总而言之，迁移学习为咱们提供了不少激动人心的研究方向，特别是许多须要模型的应用程序，这些模型能够将知识转化为新的任务并适应新的领域。

谷歌的这场 Cloud AutoML 大秀，不论有多少 PR 的成分，只要可以推进迁移学习这一技术方向的发展，就不失为一件好事。

更多干货内容，可关注AI前线，ID：ai-front，后台回复「AI」、「TF」、「大数据」可得到《AI前线》系列PDF迷你书和技能图谱。