贾扬清谈大数据&AI发展的新挑战和新机遇

摘要:2019云栖大会大数据&AI专场,阿里巴巴高级研究员贾扬清为咱们带来《大数据AI发展的新机遇和新挑战》的分享。本文主要从人工智能的概念开始讲起,谈及了深度学习的发展和模型训练,以及数据的爆发增加,着重阐述了算法、数据和算力的闭环。
直播回放 >>>算法

如下是精彩视频内容整理:数据库


做为一个研究者的身份,在这么多年AI的科研工做之中,有哪些有意思的事情? 
说到人工智能,从十几年前我开始作人工智能的时候,我当时认为毕业可能就失业了,咱们永远不会像作数据库、系统、架构的人那样容易找到工做。到了2012年以后,我发现人工智能可以找到工做了,不光如此,并且你们还很是想要人工智能方面的人才。从2013年开始,咱们经常从各路媒体口中听到人工智能的将来已来。我如今仍然在作人工智能的研究,我认为人工智能的将来也没有那么快到来。因此回想人工智能的这些东西,我一直在想,人工智能困难不困难?咱们对于人工智能困难程度的估计是怎么样的?网络

image.png

经过翻阅历史书我得知,最先提出人工智能概念的人是麦卡锡,这个预言是作什么呢?让机器使用语言让它来解决如今还只有人可以解决的问题。最重要的一点,既然是一个智能企业,那么它可以自我进化,你们以为努力一个夏天,就可以取得重大的进展,这是1956年发生的事情。如今咱们知道,除了产生了一些人工智能的定义,剩下的什么都没有发生。架构

image.png

到了1966年,咱们听到一句话:咱们有很是好的想法,只差一个程序了。当时有一个教授提出了MIT的夏季视觉计划,要有效的利用夏天实习生来搭建计算机视觉系统的核心来识别物体与背景,以及物体的种类。1966年的夏天过去了,什么都没有发生,1966年咱们没有看到无人车,如今也没有看到无人车。
为何实现人工智能那么困难?人的大脑在功耗上来讲只有20W,一个手机是5W的功率,因此人能够作很是多的事情,那么,为何实现人工智能要那么困难?我最开始作人工智能的时候是从计算机视觉起家的,让咱们大概来看一下计算机视觉在这几年作了什么事情。机器学习

image.png

2012年深度学习流行以前,计算机视觉各类方法都采起了简单的特征来解决问题,处理各类图像,手工计算图像猜想最有用的特征是边,因此咱们当时手写了不少的算法,从图片中拿一个小块出来,算一下左边的像素值是多少,右边的像素值是多少,有差异就会有一个竖边,用这样简单的竖边、横边、45度边等手工设计特征来作图像识别。
咱们显然知道人在作图像识别的时候,用这样的特征是远远不够的,咱们看上面的这个图,它多半可以有一点效果,可是用这样的特征来作自动驾驶系统,咱们不敢作,不知道你们敢不敢。工具

image.png

2012年开始提出了用更加深度的神经网络和数据驱动的训练来造成更加复杂的、相似于人的视觉系统的计算机视觉模型的想法。它的想法是说,模型像人的大脑同样是分层的,个人收入经过每一层来提取更复杂的信息来造成抽象的概念,每一层神经网络中间都有不少的参数,这些参数是经过大量数据训练来造成的。这样的深度学习方法可以给咱们带来很是灵活的设计和很是多的不一样领域的应用,从计算机系统到语音到天然处理,几乎全部可以感知到的领域都可以用到深度学习来解决掉。深度学习是机器学习的一部分,并无像神经网络那么牛,可是在这么多年之中,咱们发现并沉淀了不少很是好的算法,好比说决策数和线性模型,它们的计算量不须要有深度学习那么大,可是它们在很是多的领域有很是棒的表现。性能

image.png

咱们在Flink之中实现特别多的浅层学习模型或者说传统学习模型,今天不管是传统学习仍是深度学习,尤为是最近几年的深度学习,给咱们带来了算法上很是大的潜力。咱们回想一下,最开始手工设计的图像特征,咱们发现它最大的限制并不在于咱们可以处理多大的数据,有多大的算力,反而是咱们的算法自己就是简单的。经过深度学习,经过其它的计算学习算法的进化,咱们的算法可以处理更多的数据,能够学到更加复杂的决策,愈来愈多算法的复杂性就对算力提出了巨大的需求,这个提及来不太有体感,咱们仍是拿图像来作一个例子。学习

image.png

深度学习系统或者说今天所提到的人脸识别、车识别、物体识别,都是基于深度神经网络来作的。在2015年的时候,当时有人提出了一个Resnet模型,可以达到很是好的正确率。那么,Resnet训练一次须要在120万张图片之中进行10的18次方的计算。我当时有一次去伦敦的时候算了一下,若是全部伦敦的人每秒钟可以算一次计算的话,全伦敦须要4千年来训练模型。我们中国有人多的优点,但也不能这么用。因此经过传统的高性能方式,咱们能够把大量的GPU经过高速的网络互联起来,让这些GPU作两件事情:一是每个GPU领一堆小图片去算一下模型,看每一个参数应该怎么样进化,二是经过高速互联,使得GPU能够很快同步模型,肯定这个模型应该往这里走或者往那里走,这在传统的高性能计算领域都有很是好的积累,因此今天咱们在阿里的平台上经过Eflops+PAI能够实如今3分钟以内训练出这样的resnet模型。最初训练深度学习的时候大概须要7天的时间,Resnet的计算量增长了10倍,在增长的基础上还能够经过软硬件协同的方式,把训练的时间从10天下降为3分钟,因此这就是AI系统和大数据结合所带来的价值。测试

image.png

咱们刚才说120万张图片的数据集,在实际的应用之中,咱们发现数据的数量是呈指数级的增加,并且是成千上万倍差异的,拍立淘是阿里巴巴用来让用户用手机拍一个图片来看在淘宝之中类似的图片是怎么样的,拍立淘模型训练须要一个PB左右的图像,和如今的图像相比,大了很是多,计算量也大了许多。在咱们今天有了大量数据的状况下,不只是数据量给咱们带来了很大的挑战,并且数据的质量也给咱们带来了很大的挑战。咱们在实验室当中作计算机视觉、语言、图像等等工做的时候,这些数据是比较简单的,咱们能够想象一下怎么样存储图片?就是有一个文件夹放一个图片在里面就能够了,可是在实际应用中,咱们在作推荐系统的时候,这些数据必定程度上是比较脏的,不是说它比较差,而是它自己须要大量的处理,不少核心推荐算法的来源是用户购买的行为,哪些行为存在log里边,咱们须要来理解这个log,经过比较复杂的数据链路来清洗数据,因此咱们说算力算法数据的合成是AI的三个要素。大数据

image.png

咱们在讲AI的时候会提到算力算法和数据的闭环,可是其实90%的工做是在算法以外的,或者说数据算力以外的,咱们在考虑AI系统的时候,谷歌在十几年前就提出了这样的理论,机器学习这件事情就像是一个高息的贷款,最开始以为很是美好,可是在实际落地的时候,咱们须要付的利息或干的事情是很是多的。
我在Facebook工做时,作过手机端的深度学习的训练,手机端的学习是很是多的,模型的压缩、模型的部署、运行速度调优等一系列的东西。有一天早上8点钟我到了办公室,看到有些同窗在他的桌子上放了一个测试的手机,它的背后贴了一个小贴纸,贴纸说:昨天还好好的,今天发现从新训练的模型不对了。不少作过深度学习的同窗有这样的感受,今天咱们在作深度学习的部署和推理的时候,其实不光是跑一个GPU跑一个训练那么简单,从最开始如何来设置咱们的模型和数据输入的链路,数据怎么样去提取特征,到后面怎么样来管理资源,最后怎么来部署,怎么样来管理本身在模型上的想法等等,这是一个很是大的系统工程,不光是说我拿一个CNN的算法放在手机上就好了,今天AI在要落地的时候,不光是有算法,而是要有一系列系统工程的内容。
大数据和AI峰会就是想要给你们分享咱们在处理大数据和AI的时候所遇到的问题,所想到的一些心得,所沉淀下来的方法论和可以给你们提供的一系列工具和想法。

image.png

飞天大数据平台和AI平台是支撑阿里巴巴全部的应用,咱们也和社区、合做伙伴有很是紧密的联系。今天由我抛砖引玉的简单讲了讲一些想法,我但愿在各位嘉宾的分享之中,可以更加详细的和你们探讨大数据和AI在未来的走法,咱们应该怎么样把算法、数据和算力的闭环真正和产业结合起来落到实处去,这是我想要给你们分享的内容。

原文连接

本文为云栖社区原创内容,未经容许不得转载。

相关文章
相关标签/搜索