近日,AWS 2017峰会在京盛大开幕。第四范式互联网业务负责人周开拓受邀出席,并发表了“打造人工智能MVP”的主题演讲,分享了企业高效、快速地向人工智能转型的宝贵经验。周开拓曾任职于淘宝网,负责在线推荐系统的设计和算法工做,加入第四范式以后,基于第四范式核心产品“先知”,孵化了面向中小企业的公有云版机器学习服务,致力于完成内容推荐、电商推荐、精准营销、计算广告等关键业务的AI转型。算法
快速定位机器学习的MVP并发
在移动互联网领域,最容易被接受的一个概念即是最小可用产品(MVP),即开发团队、设计团队用最小的成本、冒最小的风险,最大程度去验证产品的可行性——这个产品的可行性,是指这个需求是否真实存在,当前产品解决这个需求的方向是不是正确的。机器学习亦是如此,企业对于机器学习的投入是长期、持续的,带来的收入和回报也是巨大的,但在此以前,企业更但愿用较低的成本去验证:引入机器学习是否能够带来业务指标的提高,产生价值的潜力有多大。机器学习
以较为经典的推荐系统为例,数据科学家每每会从点击、购买、收藏、转发分享等来表达用户是否喜欢推荐的商品。为了简化目标,能够选择点击做为最小可用产品的优化方向,由于点击是全部事情发生的前提,且点击率容易获得较好的优化效果。而在游戏运营方面,其目标主要是尽量延长玩家停留的时间,而且吸引玩家付费,故提升用户留存率即是重中之重。但因为留存率更多地由游戏自己的可玩性和玩家的兴趣喜爱决定,可干预性不高,因此留存率较难影响。尽管总体的留存率难干预,但游戏收入都是由极少数忠实玩家提供,这部分玩家能够用很强的运营策略进行干预。因此对于游戏而言,可将最小可用产品的优化目标定位在尽快锁定游戏的高价值用户,且锁定时间要迅速。工具
机器学习MVP的关键步骤学习
在机器学习的项目中,数据决定效果的上限;建模、调参则是达到上限的过程。所以数据处理、建模、调参,是成功实现一个机器学习MVP相当重要的步骤。优化
以往,公司规模越大的企业获取数据越麻烦,且在数据的使用时,若使用了错误的方式进行拼接,项目后期出现问题时,很难debug。因此在项目前期,须要控制项目风险和成本的前提下,尽可能使用熟悉、好理解的数据。宁肯牺牲一些效果,也要避免使用看似有吸引力,但风险更大的数据。人工智能
对于数据自己来讲,数据的挑选、数据是否有预测性等,无需耗费过多的人力去考虑,针对此类工做目前已经有了很成熟的方法和工具,在不违背因果关系的前提下,咱们尽量地让机器去自主完成,此外,真实的数据缺失是正常的,不缺失的数据可能才是有问题的,咱们已经有不少方式来填充缺失值,或者把缺失自己也做为一个特征。其次,数据有离散的、连续的,好比预测一个游戏玩家是否是高价值用户,那么数据可能有这个玩家已经消费的钻石、金币数量,可能有这个玩家的职业,甚至是玩家手机型号,这就要求数据处理中能同时处理这两类特征。第四范式在这方面已经作了一些工做,先知平台已经根据连续和离散的数据的计算特性作针对性的设计。spa
数据选定以后,便开始建模。其中,特征组合与调参是关键。在解决实际问题中,业界倾向于先使用简单的逻辑回归LR模型,为了模型具有更强的学习能力及表达能力,就须要使特征具有非线性的特性。特征组合即是一种经常使用且效果明显的方法。换句话说,特征组合是一种增强特征描述能力,提高模型预测效果的方法。然而,想要得到特征组合并不是易事,须要数据科学家具有极强的机器学习知识储备及业务理解能力。调参亦是如此。debug
事实上,特征组合与调参这类重复性较强且占用时间较多的工做能够用机器自动完成。在将数据科学家的经验固化为产品以后,技术人员只需设定好用于组合的基础特征,以及参数的类别、次数便可。目前,第四范式先知平台(试用连接:https://prophet.4paradigm.com...)依靠自主研发的FeatureGo算法,实现了机器自动特征组合、自动调参的功能,解决了以往人为添加组合特征门槛高、耗时长等问题,大大节省了建模的时间。举个例子,此前第四范式基于先知平台打造了某新闻内容平台的新闻推荐系统,从数据基础开始构建,收集、分析、挖掘了新闻及用户等各个维度的数据,再经过自动特征工程、自动调参等功能,只耗费2周时间就训练出了特征维度数十亿级别的模型。最终,该平台推荐新闻的点击率提升35%,显著提高了用户的使用体验。设计
综上所述,当定义好了问题的目标、边界,利用现有的数据、人员,再配上一个专业的工具,一个机器学习业务改造系统的上线能够很是快速、有效。当机器学习技术真正产生了效果,客户就知道下一步应该如何投入资源,以及应该投在什么地方。