搜狗大数据总监、Polarr 联合创始人关于深度学习的分享交流

架构师小组交流会:每期选择一个时下最热门的技术话题进行实践经验分享。算法

邀请到了 Polarr 联合创始人宫恩浩、搜狗大数据总监高君、七牛云 AI 实验室负责人彭垚,对深度学习框架选型、将来趋势展开了交流。后端

自由交流服务器

Polarr 宫恩浩微信

我是宫恩浩,如今在斯坦福在读,主要作深度学习研究,特别是医学影像相关的研究。同时也在一家创业公司,国内叫泼辣修图,在美国是 Polarr,作图片的大数据,有云端的,也有手机端的,PC 端的。咱们的 App 收集数据,创建优化的算法,咱们在云端提供图片整理、图片选择、图片信息的识别,把识别的模型经过压缩手段,把整个深度学习放在手机的 App,实现图片裁定、识别、选择、渲染,国内可能叫霹雳相册吧。我主要负责全部的 AI 的部分。网络

 

搜狗高君架构

我是高君, 目前在搜狗负责精准广告的算法研究和大数据相关的技术研发工做。搜狗从用户端的产品来说,有两个产品与深度学习有较强关系,一个是语音识别,应用在输入法,用于语音输入转文本,另外一个是图像搜索。在个人团队中,深度学习主要是用在广告领域中,如 CTR 预估、广告检索,广告相关性的评估上。将来,咱们但愿在 NLU 上面作一些有价值的工做,也但愿在网络压缩方向取得一些成绩。框架

 

七牛彭垚机器学习

我是七牛云 AI 实验室的负责人彭垚,七牛是一个以云存储起家的公司,在咱们云平台上面有普遍的图像、视频、音频的数据,富媒体客户很是多,因此咱们 AI 实验室的主要职责是对大量的富媒体数据去作分析,并作一些内容审核,识别等相关领域的应用,以服务咱们平台上面的客户。函数

 

话题交流
主持人:关于网络压缩方面的分享一下?工具

Polarr 宫恩浩:网络压缩有几部分。

一部分首先找一个最适合的架构,这部分我我的以为还得根据具体的应用、性能要求来定。

第二个部分是网络压缩,在不改变模型效果前提下尽可能减小模型参数。我一个同窗在作这方面工做叫 Deep Compression,而后我也和这个同窗一块儿参与一些新的深度学习算法研究,基于在 Deep Compression 来进一步优化模型。最近一些研究发现一个深度模型能够压缩甚至压缩到几十倍几百倍,那说明整个有很大的冗余性,基于这个咱们能不能选择一些适当的模型 trade off,在保持模型体积基础上性能比原来显著提高,好比它自己网络是 Dense Network,压缩到 Sparse Network,而后再长成 Dense  Network 能够一步步进行优化。能够想像这个 Network 一会胖,一会瘦,最终达到一个体积和性能更好的状态,我我的主要在作的是这个方法的统计分析。

 

第三个部分是模型编码。咱们公司有在作想把图像识别的 Network 放在手机上,那么首先基于模型压缩。具体实现的方法是:每步迭代的时候,一部分把小的部分变成零,而后不断迭代优化,最终模型还有一些优化,会小不少。而后同时还能够在手机上 Network 优化编码,我实验的时候权重也能够从原来的 32 位 float,变成 16 位,就是少了一半,或者是变成 8 位的话作了 encoding 就会小不少,基于这些(优化模型结构,阈值让模型稀疏,编码来减小存储)就能够不断进行压缩。可是主要仍是看需求,好比在云端的话可能就不必定非要压特别深,但咱们迁往移动端就须要压得比较大,要不可能 App 就太大,同时你压缩完了,还得作解压的工做,须要花费必定的时间。

搜狗高君:今年看到有 paper 在说 teach student 这种网络,而后我有这么一个假设,由于广告领域涉及到的特征空间很是大,用 teach student 的这种思路,可否把一个千万量级以上的网络,想办法让它降到百万量级,同时让它的 performance 仍是能维持在不错的性能。

Polarr 宫恩浩:我说一下,首先我以为并非模型越小它就越快,这可能跟架构有关。我以为能够拿一些简单的例子试一下。能够先看一下别人已经被验证过更小更快的模型。看一下基于那个作会不会合理,是否能达到你的需求。而后不行的话,牺牲一些精度,还得看你的具体精度各方面性能大概多少能够用。

主持人:宫博士大家如今是作模型压缩,主要是应用在手机上吧。那压缩了之后,在必定的精准度状况下,你的运算能耗能降低吗?

Polarr 宫恩浩:运算能耗的话,若是你直接用它的 Framework 的话,实际上是同样的。可是你能够再 hack 一些东西他就能提升。好比能够用低精度的乘法。

 

我以为 iOS 的 Metal 很好。好比 AlexNet 大概能手机上,能 30 到 42 fps,而后 inception 模型,大概是 10 fps。同时他们出一些刚刚优化,因此我以为将来移动端的深度学习,会有不少的公司用移动端解决问题,颇有前景。

主持人:大家是用的是哪一个 framework?

Polarr 宫恩浩:其实用挺多的,iOS 上确定用它的 Metal Framework。而后其余的就是后端,不少都会去用,Caffe,Tensorflow 都有过一些接触。

主持人:搜狗的广告推荐是以推荐结构化数据为主,仍是以推荐非结构化数据为主?

搜狗高君:两种都有,有搜索类的广告问题,还有展现类的广告问题,对于搜索广告来说,它是有一个明确的查询词,你能够理解为是一个结构化。假设把文本理解为结构化,那么对于展现类的广告就很复杂了,为了提升线上的 CTR,你须要明确用户的兴趣,那么处理用户兴趣的过程当中,它的数据差别很是大,你确定会用到搜索,可是你也会用到它站内的一些浏览的行为,比方说咱们拿到客户站内全部的数据,它整个数据的来源很复杂。因此对于展现类广告来说,能够认为全部的处理的数据基本都是异构的,能够理解为是个非结构化的问题。

 

主持人:广告领域,深度学习的应用是什么样的呢?

搜狗高君:其实这个领域里边的工做跟图像差别蛮大的,很大的缘由在于学术界是不关注广告的。其中还一个很重要的缘由是广告数据也没有那么多,那么很难看到有一些 paper,会专门关注于广告领域里边的深度学习的应用,因此业内的作法都在摸着石头过河。我这边的状况来说,深度学习,至少在排序问题,会比咱们现有的策略基础至少高 10 个点。深度学习,在广告领域,百度用的相对早一点。如今阿里发展很快,在商品推荐领域有很多应用。因此从应用的角度来说,我感受是有收益,可是投入跟收益目前不成正比。

 

在广告领域里边,咱们看到的就是 GPU 机器在加速比没有呈现过优点,多是因为咱们在广告领域,不像图像领域会有大量的 CNN。在广告领域,我小范围的比过一些加速比的问题,GPU 的机器没有优点,因此我一直内心边有一个问题,到底为何在图像和语音,你们都会考虑用 GPU 的机器,难道是因为卷积网络的缘由吗?就彻底不考虑 CPU 的任何的问题。

主持人:最核心的是里面的这些函数,这些解方程,大量的矩阵计算,因此说矩阵计算 CPU 确定是没有优点的,GPU 由于能够同时多个核算一个数据,因此它的优点很明显。因此在图像语音,包括 NLP 处理,GPU 优点是很明显的,基本上 CPU 的计算贡献很是小,而后像广告不少不是矩阵计算,因此致使加速比不高是很正常的事情,可能尚未 CPU 运算的快。

七牛彭垚:其实我这边也有用过 CPU 跑过一些测试的。以前在有客户也用过咱们的鉴黄系统,一开始他们说采购不了 GPU 机器,我就用 CPU 给他们测了一轮,他那个效率就很低,大概单个 GPU 和 CPU 比的话,就 20 倍了。

 

搜狗高君:我还有一个小问题,不知道你们在多机并行作深度学习会处理到多大的集群问题。至少咱们在作一些多机并行的时候,是从 Tensor 迁到了 MXNet 上,而后咱们发现 Tensor 的效率彷佛有点问题,我不知道业内在多机多卡这件事上,有没有更好的,能有效地提高加速的问题。宫博士,在美国那边,在并行问题上,你了解到有没有一些新的进展?

 

Polarr 宫恩浩:我以前有看到一个基于 Spark 的在 CPU 集群上的深度学习 caffe franework 变种,但后来没太关注,我以为有多是可行的,Spark 在数据处理上用的比较多一点。可是我我的暂时没有涉及到多机多卡。但我以为既然 Amazon 那么推 mxnet,他们确定会推出来更好的多机多卡的东西。

 

七牛彭垚:以前有去调研过多机多卡,包括 Tensorflow、Caffe。Tensorflow 它自己并无提供好的 paramter server 设计。框架提供你根据应用状况更好的去设计参数服务器。却是以为 Caffe poseidon 提供了一好 Paramter server 的设计,包括它矩阵同步的时候,怎么去传输,把矩阵就是作变换变小,可以更高效的去作同步。

 

有没有以为用 Tensorflow 训练的时候,比 MXNet 和 Caffe 慢不少,有没有碰到过这样的问题?

 

搜狗高君:遇到过,并且在多机上面差距很是大,因此咱们还把传统里边一部分,涉及到多级并行策略的作了一小部分修改,改的地方很少,可是在 CPU 的基础上,咱们当时看了一下,效果还不错。

 

七牛彭垚:有没有人用过 Torch,由于我听一些朋友说 Torch 在跑一样的数据集和网络状况下,和 Caffe 比,收敛率和准确率都要好一点,多是他在底层算法上有一些 tricky 的地方。

 

Polarr 宫恩浩:我以前作 DSD 研究,就用了 Torch,是基于 resnet 的 Torch。对 Torch 的感受,首先是太麻烦了,由于用的人太少了,有什么问题也不太好问。可是他有一些好处,好比说我想改一些 regularization 和迭代过程当中修改 weights,在 Torch上改,它就相对方便不少,由于它不少底层的操做更 expose 一些,比在 Caffe 改更方便一些。好比咱们想每一步作一个调整,和得到最新的调整,咱们就能够经过 Torch。相对来讲和 Python 相似,是比较好实现的,这是一个感觉。

主持人:你们怎么看深度学习在应用领域的发展?

七牛彭垚:内容的审核,就比方说鉴黄,就是鉴别黄色视频这种,大量简化了鉴黄师的工做。有一些内容标签,特别是对社交网站,咱们会给社交网站,直播,短视频,打一些标签,帮助客户理解图像视频的内容。

 

搜狗高君:我问个小问题,您刚才有提到有为社交网站去作一些工做,是作一些视频理解的方向的一些东西吗?

 

七牛彭垚:举个例子,根据客户的需求,咱们作了一我的脸检测,审核上传的照片到底有没有头像。若是他上传的照片里一个头像都没有,那这个用户实际上是一个 bad user。在好比,咱们把某个社交网站的图片收集起来,实际上这些图片是杂乱无章的,那么咱们作一个应用,帮全部的图片打上标签,还包括作了人脸的聚类、场景的识别,社交客户就能够根据咱们的标签应用作相册归类,这样就能够作一些数据分析,分析网站上每一个用户的自拍的数量等。就是从图像方面作一些人群分析。

 

搜狗高君:我今年听过的一个比较有意思的深度学习应用,就是应用在视频推荐,传统的视频推荐使用文本去处理的。快手里是不多文字信息的,彻底是用户上传视频,因此他们今年用了深度学习,去理解视频的内容,而后再作推荐,也作的蛮有意思的。

 

七牛彭垚:我以为这块就至关因而帮客户的一些非结构化的一些数据,打上标签。而后打上标签之后,其实能作的事情就很是多,就能够作分类、搜索、推荐,能作的事情就不少,我甚至能够对每个切片,比方说每 10 秒钟的一个视频的切片打标,而后你就能作不少事情了。比方说新闻片的剪辑,就是对新闻片的每一个地方,它会去打一些标签。比方说我这一段新闻,我有个人主持人出现,而后他会去检测下面的主题的那个文字,把文字在 OCR 出来,他就会把那些新闻一段一段的打上标签,这样可以方便作剪辑、后期处理等。

 

搜狗高君:七牛的 AI 是主要是作 to B 服务,就是帮助一些企业去解决他们内部的需求,用机器学习处理问题吗?

 

七牛彭垚:咱们最开始是作鉴黄的内容审核系统,后面才去作各类标签系统,和定制化识别应用等。

 

搜狗高君:七牛 AI 的这种模式下边,大家会把这种商业模式,当作一个长期的商业模式去运做吗,由于我在北京接触过一些公司,甚至是大公司,好比说招行这个量级的公司,我目前尚未看到很强的付费能力,他们内部很难提出这种须要用机器学习的方法去解决问题,他们也很难造成一个估值,就是估价。我一直对这件事挺好奇,这种模式真的是能够作出一个真正的盈利的模式吗?

 

七牛彭垚:要看客户的群体的,像鉴黄是帮客户节省了不少成本,原来他们须要不少基础的人力,人力成本很是高的,因此它实际上是很乐意作这个事情,并且鉴黄师这个事情特别难作,他都要熟练工,而后那种人他又干个半年一年他就不干了,其实用工成本就很高。还有其余应用,咱们都致力于大量节省人力成本的应用。

主持人:七牛是否有一些 AI 方面的战略?

七牛彭垚:咱们后期主要会在视频方向作一些文章,包括像视频分析之类的,包括一些视频通用检测的一些事情,咱们会致力于解决咱们平台上客户的实际问题来投入这方面的研究,主要是视频分析领域,由于咱们存储上面视频很是多,视频的细粒度检测也是其中的一个重点方向。

主持人:你们对深度学习有何展望?

搜狗高君:我问一个小的开放性的问题,因为深度学习出来之后,亚马逊作了 echo 的那件事情。会不会在五年之后,真的会出现一个像钢铁侠里的家庭秘书同样,就像原来苹果手机把手机全搞了一遍,会不会五年之后也出现这样一件事情?你们是怎么看这件事儿。

 

亚马逊的 echo 如今提供了很是充分的 API,将家庭的一些设备等等,或者说你一些App 上的功能作对接。那么我本身就是在想,若是将来真是有这样一种趋势的话,那颇有可能就会变成家庭必备的设备了。那若是这种场景下,它能够衍生出不少服务,好比说它能够对接摄像头,它自己也有语音,它能够变成无所不能的事。就是咱们如今可能作的全部的这个事,都能被它给干掉。由于它能彻底改变生活,因此我一直在想这件事会不会发生。

主持人:我以为这个事情,若是只是一个智能家居,我以为应该能够。若是你是特别极客,在家里放一些灯,或者机器人在家里,我以为没有问题。可是不少人可能对隐私保护比较在乎,他不必定会乐意放机器人在家里面。这个问题,我以为小范围推应该没有问题,大范围我以为仍是会有问题。

Polarr 宫恩浩:我以为 echo 最近比较火,可是我以为之后每一个人手机均可以有这种服务吧,其实就是更直接一些,而如今好像有不少 startup 搞我的助理,他们主打的想法是变成 AI 的助理,好比说帮我叫个车,就不用麻烦再本身打车了,手机助理能够和互联网服务经过 AI 链接。我以为这都是不久未来能够实现。

搜狗高君:在美国那边作这个方向创业的公司多吗?

Polarr 宫恩浩:最近就看见过一些,包括国内,我以前有同窗回国作我的助理,最终确定是想作,就是语音识别的,就是人工智能,如今可能就一开始都是人手人工实现服务,我以为仍是一个刚开始的方向吧,都想往 AI 上作。

搜狗高君:记得国内也有相似的团队,跟亚马逊 echo 很像。甚至有作车载的后视镜的,好像也在往这个方向打。

 

我是日常用微软的小冰,有时候会用它来调一些程序,作一点小东西。

主持人:我的习惯吧,从普通大众来讲,有多少人会用这些东西,我以为可能用的也很少。

Polarr 宫恩浩:我以为主要是有几点问题,这就是识别准确率,另外是说他就和其余的,好比在微信里给发啥,他没法实现这个功能,好比说着目前是很计费一个东西。

主持人:我以为聊天机器人你们能够探讨一下,如今以为尚未一个特别好的应用,算法上可能尚未特别成熟。

搜狗高君:以前有朋友跟我说过聊天机器人,他跟我提到语料是一个很是麻烦的事儿,我不知道大家那边怎么处理的。

主持人:最核心的就是知识图谱的构建。在聊天机器人上,技术上不是问题,其实就是生产资料的问题,就是你怎样去构建专业领域的聊天知识图谱,这是目前聊天机器人作的好很差的差别化。怎么样去跟行业深度应用,这是一个将来的趋势。技术是没有门槛的,随便几我的,能够建立一家机器人聊天公司。

搜狗高君:若是作一个垂直领域的自动问答,有一个领域级的知识库,可能对这些问题的解决帮助会很大。那好比说作小冰这种很宽泛的,我一直很好奇有个问题,好比说像电影和电视剧里边有大量的对白,那么在这个场景里边真的用这种对白有没有价值能帮助这个聊天机器人的算法会变得更好?若是只是从这种 QA 的角度来说,要搜集这种配对关系,这个耗费的人力很是大的。但有的时候聊天机器人可能只是想让你们感受到它像一我的。因此这样为何不能从电视剧和电影里边去拿到大量的对白。

七牛彭垚:我以为其实客服机器人是相对好作的,反而把它作得像人,我以为是比较难。我以前就接触到一个例子,是让机器人去学习你们平时的聊天内容。比方说“我生病了,我今天不舒服”,而后去作人工去打标,比方说 5 个回答,它这里面就有一个回答就是“怎么了”。结果它搞了好几组人打标,选“怎么了”的人最多,其实“怎么了”这种说法你在任何场景都是通用的,这个机器人它什么都给你回怎么了。实际上,它仍是没有到融汇上下文,可以理解全部东西的地步。

主持人:你们能够探索一些新的领域。

Polarr 宫恩浩:除了公司这边,我我的科研主要作医学影像,算比较新的一些应用,好比说用深度学习来帮助医生作一些诊断,或者看到一些人看不到的诊断,就是其提供图片的质量,其实就是跟凸显相关,同时我以为 NLP 也能够用在这种就是医学诊断方面,最近好像有些人来用就用各类这种非结构化的数据来预测,这就是说我我的比较感兴趣,可能在作一些比较小的尝试。

搜狗高君:我读博期间的实验室是一个 cv 的实验室,我不少的师兄师弟在作一些图像相关的创业。刚才宫博士提到的医学影像是我目前在关注的一件事情,确实很感兴趣,由于国内目前也有几个小的创业公司,好比说 deep care,而后他们也貌似在作相似的工做,好像好多人在学的 IBM 那个 Watson,好像是那个方法,国内有这样一批的公司正在作,还有另一批公司确实有在用 NLP 的方法在作病症判断和分诊的问题,医学上这两个方向。我感受如今创业公司比较多,可是目前在制药这件事上我没有听到,因此我日常在广告这件事完了之后,关注的最多的就是医学影像,我会找这行的师兄师弟们聊聊天,听听他们的一些想法,由于我以为这件事彷佛商业价值蛮大的。

七牛彭垚:这种项目通常都很是大,对于这种,实际上是解决一些很是通用性的问题,你只要解决一个科室的一些,比方说医学影像,那其实就解决了这个很是通用的问题。

搜狗高君:不过我目前不看好国内作这件事情,由于个人一个基本判断是,你想让医院把正儿八经有用的数据拎出来就不太靠谱,由于他们跟我说过这么一件事儿,他们拿到过几万份的病例,而后就是相关的数据,删完了之后,大概能用的数据是千条,我当时的感觉,就是这个行业别说用深度学习了,你拿个逻辑回归都搞不起来,数据量过小。国内其实很难有这么大的时间,能让你搞这个,因此可能在美国不多作,但我以为国内应该长期会有一个机会。

Polarr 宫恩浩:国内其实这种病例仍是多,主要是医院和学校也能够合做,好比清华就有不少这方面资源,未来若是再想作这事的话,就是从每个病人开始作起,就如今国内基本上一周多的病人,就跟美国一个月一年的病人的数目差很少那种感受。

七牛彭垚:对,像清华浙大交大这种医学院研究院,有不少附属医院,数据仍是很是多。刚才宫博士也说,是给到某些大学,而大学里面这些影像中心能够流出去,因此这一块其实有不少机会的。问题却是以哪些病为突破口,这个却是能够再探索。

Polarr 宫恩浩:最近基于 CNN 的 segmentation 发展有必定进展,就能够作一些不少医疗方面的应用。 

搜狗高君:可是有一点像医学影像,即便就目前来看,就算能拿到很好的数据,它也不太可能变成一个主要的手段吧?我是这么想,毕竟它是有错误率的,若是让一个机器去作主要建议的话,一旦出了事故会比较麻烦,我是这样感受的。因此我以为这种工具在将来,也仅仅是给医生作一个参考的做用。我不知道你们会对这件事有更大的期待吗?

Polarr 宫恩浩:这些医学伦理和管理方面问题,主要是你无论作的再好,目前你不可能一个机器来给你作这作那,都是最后签字是有人来负责,可是对于医生来讲,好比他须要看不少层的图片,不少个不一样的层的片,那若是能告诉他,你就看这一层,就是主要的一层,这种减小他的工做量,从实质上来讲,很是很是好。前几天我跟一个医学院的老师聊这事,他以为就须要这方面的东西。

相关文章
相关标签/搜索