玛丽.雪莱在创做世界上第一部科幻小说《科学怪人》(又译: 法兰克斯坦 )的时候,恐怕无法预见到在一个多世纪后的今天,真的会出现一种 脱胎于虚无,却能判断、能决策的存在 。人工智能(AI)自动化近年来受到了广大的关注,但在真正的建模工程师和业务人员眼中,却一直只是玩具级别的应用。 不但限制重重,繁琐的编程和抽象的参数设置对于菜鸟用户来讲,也远远称不上「自动化」。谁能想到,早在 2015 年, 硅谷就成立了一家致力于开发「帮助创造 AI」的 AI 公司 。 日前,R2.ai 的创始人兼 CEO 黄一文接受了采访,讲述他们对于人工智能自动化行业的发展趋势以及产品技术核心的认识。算法
回归本质:业务专家才是机器学习问题的最适解决者编程
AutoML(Automated machine learning)对于人工智能小区来讲并不能说是一个新潮的概念,国内国外的企业都陆续推出了本身的 AutoML 平台。但这些平台的用户和服务对象每每是建模工程师,虽然能很大程度上提高建模工程师的工做效率,但对于常变常新的业务问题来讲,却仍然慢了半拍。事实上,六年前的机器学习自动化产品就已经可以在十几分钟内解决 TB 级数据的建模问题了,但对于但愿在业务中应用机器学习的企业来讲,每每苦于寻找优秀的建模工程师和探索真正有用的应用场景;即使对于已经开始了机器学习应用的企业来讲,缓慢的开发速度和低下的模型质量也每每使得企业在高昂的投入面前望而却步。机器学习
换句话说,「传统的建模流程 + 超高速的机器学习自动化平台」这一模式并无突破企业在实际应用中解决机器学习的瓶颈。「咱们认为业务人员实际上是最适合应用机器学习来解决问题的角色,让正确的人使用正确的工具来解决正确的问题,是咱们想要达到的效果」,黄一文说。要最大化地利用企业的数据,让需求多样的企业真的可以在业务当中落实机器学习技术,一个广泛性强、简单易用且高度自动化的优质机器学习平台是不可或缺的。而这偏偏是 R2 Learn 2.0 的技术特色。工具
菜鸟的福音,数据科学家的得力助手性能
在 R2 Learn 2.0 中,R2.ai 为业务问题提供了一个端到端、高自动化的机器学习解决方案。黄一文表示,具备普遍适用性的 AutoML 类产品对于产品化、优化及模型集成丰富度的要求很高,在 R2 Learn 2.0 中, 用户甚至仅需鼠标操做, 不断根据平台的提示进行选择,就能够在上传数据后迅速创建模型。不只如此,在自动建模的过程当中,R2 Learn 2.0 还实现了数据清洗及修复、特征工程、模型评估等传统建模过程单元的自动化。如在上图中,用户经过 R2 Learn 平台,可发现该数据集存在两个问题:学习
目标变量有 3 个水平值优化
预测变量里存在缺失值和数据类型错配人工智能
解决这些问题,用户仅需点击 Continue,平台就会引导用户选择目标变量中的惟一值,并对预测变量数据质量问题进行自动修复。经过这样傻瓜式的引导,即使是毫无机器学习知识和经验的业务人员也能快速为业务问题进行针对性建模,从而实时知足业务需求。而对于掌握有机器学习领域知识的数据科学家或分析师来讲,R2 Learn 2.0 平台还提供了高级编辑模式,用户不但可以看到模型从数据预处理到模型评估的全过程,还能根据本身的经验和偏好对模型进行调整,这也体现了平台的高度透明性和可解释性。spa
自动学习,自动调参:AutoML 迎来改变设计
对任何一个建模工程师来讲,从 0 开始创建一个模型都足以成为不眠之夜的噩梦。谈到传统建模过程的复杂性时,黄一文说道:「建模的挑战主要是由建模过程在每个步骤都有多元选择形成的,好比修复数据质量可能就有三四种不一样的方式,变量工程有十几种不一样的方式,算法的选择和算法的参数调整空间就更大了。这些选择会使得建模的复杂性指数型上升。」相关信息来源:http://www.ai.org.tw/map.asp
从本质上讲,不管是对于人类工程师仍是机器,建模都是一个不断试错的过程。人类的优点在于能够凭借经验和直觉找到一个不错的试错起点,但这不只对建模工程师有很高的要求,还会使得模型的成功在很大程度上依赖于运气。而对于机器来讲,不断尝试正是机器最适合作的事情,辅以高效的优化算法,机器能够在短期内尝试大量模型并向用户推荐最优结果。R2 Learn 2.0 充分利用机器的算力优点,并开发了自学习和自动调参技术来进一步提高平台的效率和模型的准确性。「若是模型的原始参数与最佳值相距较远,模型可能会很难收敛,也可能很容易发散到其余地方。为了找到一个合适的原始参数,咱们的平台有一套基于加强学习的知识库,当用户上传了数据开始建模时,咱们会将用户的数据与咱们知识库的数据进行精准的配对,从而使得模型从一个比较合理的超参数开始搜索。」黄一文介绍道。
两小时建模,全生命周期管理
效率问题是自动化机器学习须要解决的首要问题。「要让机器学习自动化工具在企业中真正落实,咱们必须实现端到端的自动化建模」,黄一文说道:「数据修复、特征工程、模型选择、模型调参、模型组合等步骤其实都是相互关联的,自动化及优化的程度越高,模型要搜索的空间也就越大,并且是成百上千倍地扩大。」自动化建模其实是一个搜索优化问题。 即在全部的选项中,用最短的时间找到最优解。为了解决这一问题,R2.ai 基于强化学习、遗传算法等开发了五种不一样的优化算法,使得平台可以在很是短的时间内用尽量少的资源找到最佳模型。
R2 Learn 2.0 的高效在不少应用场景中都获得了体现,在一个金融行业的应用案例中,R2 Learn 2.0 须要在保证高准确性的状况下帮助一个避险基金公司创建人工智能交易模型。在将近 100 万行和超过 80 个变量的数据集上,R2 Learn 2.0 在两小时内建出了一个 AUC 为 0.78 的模型,比原来的模型质量提升了 12%。「模型有不一样的特色,有些模型建模速度很是快,有些模型精度很是高,有些模型效率很是高。而在金融场景中,模型的选择是很是关键的」,黄一文向咱们继续介绍:「咱们为 R2 Learn 2.0 设计了一个独特的仿真优化技术,用户能够将场景信息输入到模型中,系统会据此对模型进行从新优化,从而找到一个真正能够知足用户风险收益平衡需求的模型。」除了效率问题之外,准确性问题也是自动化机器学习工具没法回避的挑战。经过 端到端的全链建模流程总体优化 ,而不是几个步骤的局部优化,这是 R2.ai 能够生成更优异性能模型的法宝。建模的每一步都是互相关联的。总体优化包括的步骤越多,生成优异模型的机率越高。固然,这同时意味着对优化算法的要求相应提升,这偏偏是 R2.ai 超越竞争对手的技术壁垒。
在一个医疗领域的案例中,医院但愿可以经过病人的特征数据和诊断数据预测并控制病人的再入院率。R2 Learn 2.0 经过对病患的画像、患病史、医疗诊断指针、入院记录等海量数据的分析,运用机器学习建模技术, 成功地在短期内构建了 AUC 达 0.846 的模型。该结果成为了医院管理者分析并控制再住率的有效依据,大幅下降了出院病人的再入院成本,还能够给予患者更适合我的的医疗选项,提高患者的治疗体验。除此以外,R2 Learn 2.0 还将全生命周期管理的概念首次植入到了机器学习自动化领域中。黄一文谈道:「大部分企业如今主要关注的问题仍是怎样建出更好的模型,但实际上模型的运营也是很是重要的,这就会涉及到模型的全生命周期管理问题。」任何机器学习模型都是基于历史数据开发出来的,而历史数据反映的是过去的商业情况,因此模型实际上是有保鲜期的。「企业应该时刻监督模型在实际应用当中的性能,并不断用新的数据去实时优化旧的模型,这样才能为模型『保鲜』。」黄一文如此建议。
业务问题,而不仅是机器学习
「咱们但愿企业能够用 98% 的时间来解决业务问题,而不是机器学习问题」,谈到整我的工智能和数据行业的将来发展时,黄一文这样说道。「技术最终是服务于业务的,因此我认为机器学习工具的发展方向是让用户更快更有效地解决业务问题,与商业更好更深结合。」外媒 Interesting Engineering 在报导 R2.ai 这家近年来快速增加的公司时使用了「new generation(新世代)」一词,咱们也确实看到 R2.ai 为人工智能在应用当中从 0 到 1 的落实迈出了坚实的一步。「企业落实人工智能基本上能够有两种方法,第一种是基于系统规划,企业经过采集大量数据,搭建基础设施,一步一步地落实人工智能。而另一种更推荐的方式则是先用现有的数据找到一个能够落实的场景,从小到大,而不是从大到小地开始建模。这样能大大下降人工智能落实的成本,也给企业更多的正反馈来进一步应用人工智能」。黄一文为咱们补充道。
那么,数据科学家会失业吗?
社会自动化水平的提升让咱们不得不面对严峻的就业形势,人工智能的普遍应用更是让大量行业的从业者面临着失业危机,在谈到数据行业从业者的职业问题时,黄一文乐观地与咱们分享道:「从历史上来看,人类文明中每个新技术的出现每每伴随着新行业的出现;自动化水平的提升每每伴随着新工做机会的出现,失业率不但不会提升,甚至还有可能下降。」人工智能行业的发展速度每每给人一种突飞猛进的感受,但谈到将来发展时,黄一文却显得很自信:「其实有不少技术咱们在研究室当中已经作出来了,好比非监督学习,很快咱们的用户就能够在群聚、异常检测、推荐等业务场景下应用自动化的机器学习了。」另外,目前的 R2 Learn 2.0 平台还只支持结构化的数据,在采访的最后黄一文也表示将在将来一年着手支持天然语言处理和计算器视觉的应用场景,将非结构化数据的处理也归入到 R2 Learn 2.0 的自动化范畴以内。
「如今有不少人发表言论说人工智能也许会摧毁人类文明。我认为他们的思惟是局限在有限的生存空间内的,但事实上咱们所处的世界远远不止咱们如今所了解的范围,AI 最大的存在价值之一就是它可以帮助咱们去探知将来的世界。」黄一文继续说道:「R2 Learn 2.0 就是一个泛用性很强的 AI,将来咱们想作的就是帮助企业去探知更多他们尚未了解的世界。中国人讲 授人以鱼不如授人以渔 ,当人人可用的 AI 出现以后,企业必定能更深刻地理解业务,不断开拓新的业务边界。」