郭律: 论机器学习平台与人工智能的关系

欢迎你们前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~算法

本文由腾讯云AI中心发表于云+社区专栏网络

郭律,腾讯高级产品经理,腾讯云AI基础产品中心高级产品经理、解决方案架构师。主导腾讯智能钛TI-ONE(可视化机器学习平台)和TI-S(自动机器学习平台)两个产品的设计工做。从上海交通大学模式识别与智能系统专业博士毕业后,前后就任于IBM、普华永道从事IT架构、咨询方面的工做,对机器学习与金融、零售等业务场景的结合具备深入理解,帮助学员掌握如何利用工具解决实际业务中面临的机器学习问题。架构

众所周知,现阶段的人工智能特别热门,研究人员也都想进入到这一领域,人工智能到底是什么?咱们有一个形象的比喻来讲明什么叫作人工智能。框架

img

人工智能是这样,把米煮熟成饭的过程就是机器学习的过程,米是大数据,而饭就是人工智能。归纳为一句话就是,将海量数据经过机器学习的手段来进行处理最后造成模型的过程就是人工智能。说到具体的例子,阿尔法狗的海量数据来自于各类各样的棋谱,经过机器学习成为一个下棋的人工智能。机器学习

机器学习提及来是一个词,其实背后有不少的事情要作,好比预处理、特征抽取、数据建模、模型评估等等。在建模过程当中,除了调参选算法以外还有不少重要环节。在这个过程中比较重要的一环是特征工程,一个模型好很差取决于特征工程作的好很差。工具

img

人工智能为何这么火?相比于传统的商业智能(BI),人工智能更加精准。,以往的商业智能实现了对大数据的分析和处理,不一样之处在于BI主要是经过人对数据的规则进行发现,AI是经过机器对数据的规则进行发现。咱们同行里面有一个专家曾经说过,当规则超过1千万条,机器是能够超过专家的。这句话就是讲机器学习的特色就是精准。学习

img

AI经过机器学习挖掘数据里面的规则,效果比人作的更精准,而想用AI解决问题有4个约束条件。大数据

第一个条件是业务场景。咱们现阶段的人工智能不是强人工智能,并不能像科幻电影里同样能够解决任何问题。可以用机器学习解决问题的前提之一,是把业务问题转化为机器学习的建模问题,这样的问题能够用AI解决,因此业务场景是特别重要的一点。优化

第二个条件是海量数据。咱们如今的机器学习,其原理是基于统计来学习数据中的规则。咱们根据数据历史,基于统计发现其中规律,而后再将这些规律用于将来的数据预测。在历史数据里发现规则,须要海量的数据,这些海量数据应该是特征丰富、不重复,高质量的数据。ui

第三个条件是人才。这涉及到作算法人才、把算法在工程中实现的人才、产品化的人才以及将AI和业务系统集成的人才,这些人都属于AI人才。

第四个条件是技术能力。包含了计算资源、存储、网络以及和业务系统的集成。AI若是不能跟企业业务系统集成在一块儿是没有业务价值的。

img

刚才说的是机器学习的4个要素,接下来举例说明这4个要素在不一样场景当中的体现。

在风控领域,海量数据包括客户交易数据、黑名单数据、客户数据、客户帐户数据等等。这些数据都为咱们提供各类维度的特征。咱们用AI作风控,例如用AI判断信用卡交易是否是欺诈交易,或者信用卡催收时,判断一个客户的还款意愿是否强烈,这些问题能够转化为回归或者是分类问题。用这样的方式,把金融风控领域里的一些业务场景转化为一个系列具体的、能够经过机器学习建模来解决的技术问题。

img

在营销领域,海量数据包括客户画像、客户行为,商品目录,营销活动数据、营销成果数据(如历史上把某一类商品推销给某些客户,成功或者没有成功)等等,咱们把这些数据送给机器去学习,哪一种商品推给哪类客户比较容易成功,哪一种不容易成功,这是咱们要作的事情。具体到业务问题,例如说沉睡唤醒,在银行和电商有不少客户都存在开户后可能两三年再也没有业务的状况,就属于沉睡客户,若是经过一些推销手段,如给你发短信或者推荐促销活动,看能不能让客户从新在银行或电商活跃起来;又如商品个性化推荐,不少人在京东买手机之后,京东会推荐手机膜、耳机、储存卡等商品,这些推荐会根据其余用户选择或该用户购买历史以及跟该商品有关联的其余商品作推荐。

img

在健康领域,海量数据包括患者的行为数据、处方数据、病史数据等等,用这些数据作疾病预测,例如糖尿病预测,根据病人的数据预测两年或三年之后得糖尿病的几率,就是AI的一个应用场景。

img

最后一个场景AI加制造,在不少工厂里面也须要,用AI改善工艺流程或者下降成本,在这里海量数据会包含机台参数(每个不一样的设备加工时的输出参数)、工艺流程数据,场景包括经过机器学习作一些智能测量以解决在某些人到不了的状况下须要作检测的问题。

img

在不一样的业务场景里面,AI数据和AI业务问题具备多样性。可是相对而言AI人才(包括建模和工程人才)和AI的计算资源和计算能力是通用的,各场景的建模过程大致上也差很少。

img

同时AI人才和计算能力又是有层次的,AI从理论研究到可以应用到工程中须要经历4个层面,最贴近业务的一层是模型,而后是算法,业务问题提出后在算法层面调试得到模型,模型不不能直接使用,如何打造数据闭环,须要在工程层面或者产品层面去实现。至于计算框架和计算资源层,模型训练还有不少工程方面的问题须要解决,包括算法与数据源集成、训练的日志和错误监控、任务调度等等。这些问题和业务相关度较小,但技术难度又很大,实施周期长,给传统企业使用AI、拥有AI能力形成了必定的困难。

img

咱们把AI的人才按照成熟度的不一样分红4类:第一种是AI Geek,从底层计算资源搭建到计算框架的引入,一直到上面的算法编写,包括模型的调优,一我的能够作完,这种人很是的稀缺,效率不必定高,由于全部工做都要重头作。

第二种是AI研究者,他们对某类算法很熟,他们本身会写比较高级的算法。可是他们可能对底层的计算框架,好比说GPU怎么管理,不是很清楚,只要把算法写好就能够了,底层交给工程人员,这属于AI的研究者。

第三种是AI的从业者,在座的同窗大部分在这个层级上面,这一块的特色是:知道整个建模的流程;也可以用一些开源的算法作模型训练,但愿可以有一个比较好的机器学习UI,不须要从框架上或者每个交互都须要一个命令行来建模。

最后一种是AI的应用人员,但愿直接拿到发挥做用的模型,不关心模型的原理,但愿的是可以从业务数据直接获取一个模型来解决业务问题。

img

根据以上这么多用户层次的差别性,咱们须要针对不一样用户诉求提供差别化的方案、产品和服务。

先从最底层提及,针对AI研究人员须要提供计算资源、任务的调度、计算资源的管理,他本身写算法。

第二类是AI从业者,AI从业者须要本身建模,对算法作少许改动。另外他们关心模型建好之后,如何与业务系统集成,数据闭环如何实现。数据闭环是为了防止模型衰减,保证模型上线后可以迭代训练以保持效果,这也是这个层级的用户会关心的事情。

再往上一个层级就是AI应用者,AI应用者须要模型自动训练、自动数据分析、自动特征工程,模型训练完成后自动布署为服务。最好还可以对模型微调,就是加一些数据,能够适应新的场景。

img

咱们针对不一样层次的客户提供差别化的产品,最左边的TI-A是深度学习加速器,主要是作模型训练加速,咱们的速度很快,在云上面使用TI-A平台,能够帮助用户实现深度学习训练的加速。并且这个模型训练完之后,它能够一键部署,这也解决了模型训练完之后怎样能够应用到业务场景里,怎样作预测的问题。

中间的产品TI-ONE,是智能钛一站式机器学习平台,它有一个可视化的UI,用户能够一目了然看到整个建模的工做流,能够看到数据的流转关系和各环节的依赖关系,这个产品可让用户方便地建模,并且里面有不少内置的算法。

最右边是TI-S,它的特色是全自动、黑科技,不须要用户建模,只须要给它数据,就能够反馈给你一个可用的模型,真正一键建模,模型训练完后可以部署成一个应用。

img

接下来咱们仔细来看一下智能钛产品具体都有哪些功能。在TI-ONE里面支持机器学习、深度学习和模型推理,机器学习里面包含了数据加载、预处理、特征工程、特征选择的工具,后面还有一些具体的算法。深度学习里面包含了一些已经写好的神经网络的算法,针对一些业务的场景也有一些封装好的、针对这个业务场景的算法,例如机器视觉的算法,天然语言处理等等。

在模型推理部分,对于机器学习训练出的模型,后续处理包括模型部署、模型管理、模型监控、模型验证等等。

TI-A相对比较简单,含有一些深度学习的神经网络库和模型推理的功能,UI采用轻量化的客户端,用控制台支持模型和任务的监控。

TI-S的模型训练、部署都是自动化在后台运行,用户只须要把数据传上去,TI-S自动完成数据处理,特征工程,算法选择和参数优化。

img

智能钛平台下降企业得到AI能力的门槛:框架方面,智能钛平台内置众多主流框架,省去用户本身集成框架的工做;算法方面,因为有内置算法,省去用户不少写算法的工做;模型调优方面,智能钛平台的图形界面能够帮助用户作算法调优,有比较灵活的调度和调参方式;在模型管理方面,智能钛平台能够帮助用户搭建数据闭环,数据闭环只有在本身搭建的算法训练出的模型上才能实现,直接购买的AI应用一般不支持数据闭环;协做方面,智能钛平台支持团队的模型分享、算法分享。

img

以智能钛为核心,企业还能打造开发者生态,在这个平台上面开发应用,开发者能够省去不少底层比较辛苦的工做,并且能经过这个平台来实现模型的闭环。另外,腾讯有比较强大的技术能力和算法服务,也有比较丰富的数据服务,能够帮助开发者作出更好的AI应用。云平台底层有比较丰富的计算资源,AI开发和运转须要大量计算资源。

img

这个图是模型自更新的框架图,自建AI模型很难,因此不少企业愿意直接购买AI应用,但当出现如下几种状况的时候,就必须自建模型。第一,若是你须要解决的问题场景比较独特,而不是一个简单的人脸识别、语音识别,例如在不少制造型的企业中,生产流程中须要测量的值比较独特,这种状况下只能本身建模型。第二,数据比较独特,并且你也不肯意把数据公开。建模须要大量数据,例如刚刚讲的AI语音识别中,由于没有方言的语料,就没有很好的方言识别模型。那么若是你须要一个AI模型,而这个模型须要厂商来帮你训练,那你至少得把相应的数据给他。可是有一些你本身公司内部的应用数据,别人买不着,你又不肯意拿出去,这个时候就得本身建模。第三,模型须要不断自更新,自更新在不少场景下都是很重要的,由于模型会衰减,因此须要增长新的数据以适应新的状况,本身建的模型,首先这个数据是本身的,经过一个标注平台进入训练平台,平台都在你本身的机房里面,这边的模型所有都是在平台计算出来的。经过平台和业务系统数据总线打通之后,实际上能够造成一个模型的闭环和数据的闭环,就知足一个模型自更新的要求。

关于平台的应用案例:咱们这个平台目前的案例包括:金融领域的风控,营销以及基于NLP、OCR实现运营优化等等;教育领域和高校或赛事举办方合做,以平台为基础来提供比赛的环境以及教学环节等等;商业领域方面,帮物业公司实现物业管理的服务水平优化;工业领域方面,帮地铁公司对轨道、车辆设备作异常检测。以上这些场景大多比较特殊,只能经过机器学习平台本身训练这样的模型。

Q&A

Q1:腾讯的AI定义是什么?从最先的AI识别,到大数据系统,建模放在AI当中,如今更多的是讲深度学习和机器学习,我不太清楚。

A1:语音包括小微都属于AI应用层面,AI应用底下靠什么来承载,就是AI的平台和框架,以及再往下的计算资源。咱们这个平台定位的是AI基础平台,它就是一个建模的工具,能够提供的是机器学习和深度学习的建模所须要的工具。

Q2:机器学习在原理上没有变化?用matlab能不能训练机器学习和深度学习模型?

A2:机器学习在原理上没有变,深度学习是神经网络演化出来的,神经网络层数变大之后变成了深度学习学习,用matlab训练模型从原理上和算法上来说是没有问题的,可是从思路上来讲,如今机器学习的思路跟之前不同的地方,之前是降维,由于计算能力有限,如今都是升维。如今随随便便一个神经网络几十层,计算量都是很大的,这就是为何深度学习须要用GPU的缘由,用matlab训练的话计算能力会有问题,训练不出来。

问答
机器学习和人工智能在工业4.0时代有什么具体应用?
相关阅读
王珺:智能音箱语音技术分享
人工智能、机器学习、深度学习,三者之间的同心圆关系
易图秒懂の人工智能诞生
【每日课程推荐】机器学习实战!快速入门在线广告业务及CTR相应知识

此文已由做者受权腾讯云+社区发布,更多原文请点击

搜索关注公众号「云加社区」,第一时间获取技术干货,关注后回复1024 送你一份技术课程大礼包!

海量技术实践经验,尽在云加社区

相关文章
相关标签/搜索