2018年1月,Oracle 的官方博客上发表了一篇文章,标题是“It’s Pervasive: AI Is Everywhere”。做为全球最著名的商业数据库系统提供商,Oracle 在这篇文章里历数了 AI 在企业信息系统中的发展空间。在面向最终用户的互联网行业,巨头们招募AI专家,用Python和C++打造服务大众的特定AI能力——搜索、推荐、以及精准定向的互联网广告系统。在企业业务中,使用SQL的分析师是大多数。git
滴滴首席数据科学家谢梁(左)
与蚂蚁金服研究员王益开启共建SQLFlow之旅 github
2019年7月,滴滴的数据科学(Data Science)团队的几名数据科学家在北京新澄海大厦见到了来自蚂蚁金服的几位工程师。在那以前两个月,蚂蚁金服从事AI基础架构研发的王益团队开源了一款机器学习工具SQLFLow,将SQL程序翻译成Python程序,调用数据库和AI引擎,实现端到端的AI。滴滴首席数据科学家谢梁敏锐地关注到这个项目。此次拜访双方一拍即合,开启了共建SQLFlow之旅。算法
https://mmbiz.qpic.cn/mmbiz_g...
用SQLFlow构建AI的训练和预测任务(动态图)sql
数据驱动决策是不少公司的追求,在国内不少业务人员都了解SQL,可是对于AI、深度学习模型的训练,须要长时间系统性的学习,有必定的门槛。SQLFLow的出现让包括数据分析师在内的业务人员经过写简单的SQL去调用AI模型成为了可能。docker
滴滴数据科学团队长期地直面一线业务,了解业务需求,也沉淀了不少经常使用模型。本次合做双方但愿优点互补共同助力AI的落地,据悉合做分为三步,第一步滴滴为蚂蚁金服贡献更多针对于业务产品的理解和洞见;第二步滴滴将公司自身业务场景最有价值用的最好的模型贡献到SQLFLow;第三步滴滴加入到建设到整个SQLFLow开源社区的建设,双方要在模型、社区、文化等全方位共建。数据库
222.jpg
SQLFlow的技术架构segmentfault
一个多月的时间,滴滴已经为SQLFLow贡献了基于DNN分类预测模型、可解释模型和无监督聚类模型三个高价值模型。这三个模型覆盖的场景很是普遍,对于滴滴内部来讲,包括网约车、单车、金融等在内的诸多业务场景均可应用起来,于外部而言,“由于整个模型它是一种基础能力,其实它不会局限于某一个公司或某一个行业,它具备普适性。”滴滴高级数据科学家高梓尧强调。架构
333.jpg
SQLFlow和滴滴数据的整合逻辑机器学习
好比分类预测模型,适用于作产品增加的场景,对特定人群进行定向推荐。而无监督聚类模型,也就是模式识别,在滴滴的产品的应用很是广,好比会根据司机出车时长分布,去整合概括司机出车的偏好,更好地为司机提供调度建议,进而帮助缓解出行供需。工具
滴滴首席数据科学家谢梁认为在共建SQLFlow过程当中,充分体现了算法和数据科学在对数据的理解和应用上的两个不一样,以及双方优点互补造成1+1大于2的协力效果。由于对于传统的算法来说主要强调对于预测一个给定事件的预测精准性。可是数据科学在预测精准性之上,还强调预测的可解释性。实际上在更普遍的商业层面上,好比运营、营销等更须要了解为何会这这样发生,这对于业务战略制定、营销方案的肯定,以及整个产品序列的设计都有很是大的帮助。
滴滴数据科学团队在过去不到两个月的共建工做中显著扩大了SQLFlow的应用场景。根据蚂蚁金服SQLFlow项目的产品负责人刘勇峰介绍,滴滴的同事们建议而且参与研发了SQLFlow对接XGBoost的功能,从而在深度学习模型以外支持树模型;以及对接unsupervised learning的能力,支持聚类分析。此外,SQLFlow基于SHAP支持了深度学习模型和树模型的图示化解释。SQLFlow也支持了滴滴经常使用的Hive数据库系统。
444.jpg![Uploading file...]()
基于XGBoost的汽车价格预测模型(数据来自Kaggle)的SHAP解释图
(注:SHAP值表征了每一个特征对模型输出的影响,如图中,较小的engine_hp“引擎马力”值会下降汽车的预测价格)
“咱们是但愿经过SQLFlow真正可以把数据驱动业务、科学决策的思想,可以在中国传播得更好更远,也但愿就是可以经过咱们本身的努力,真正让AI模型能力大众化和普及化,而后使得咱们整个国内的数据分析的科学性、合理性和洞察性,可以逐步提高,甚至达到国际领先。”高梓尧说。
而全部参与项目的同事们对SQLFlow的将来都有更大的期待,这是对于开源社区做为一种高效率的工做模式的信任。
在强调数据驱动的滴滴其实一直积极参与到开源建设中,截至目前,滴滴和蚂蚁金服分别开源了数十个项目。SQLFlow是双方开源共建的首秀。
对于双方仅一个多月的时间就可以共建三个高价值的模型,谢梁认为很重要的缘由是SQLFlow已经给滴滴搭建好了底层能力,滴滴至关于作了一个交通领域的几个核心插件,而且经过滴滴插件能力,对整个SQLFlow覆盖面和深度方面的底层能力进行了验证和提高,“那么再把这个基础打好以后,咱们就至关于造了一个大的花园,咱们把土都铺好了,须要什么养分的土,要种什么类型的花,都给他作好了,以后就须要有更多的农民伯伯一块儿来种田,他们要去种向日葵,咱们毕竟精力有限可能就是以种小麦和种主粮为主,更多的经济做物就须要其余开源社区的同窗一块儿来贡献。”
在整个SQLFlow开源社区建设方面双方都有更大的愿景,滴滴的分析团队总结的不少模型在 BI 领域具有普适性,而SQLFlow在蚂蚁的场景使用模型在金融领域很有普适性,将来要让更多的人去用上普适的AI能力,在SQLFlow社区之上会造成一个开源货架式的交易市场,更多懂业务的人把更多商业场景抽象成模型打形成模型库,模型库是 SQLFlow 生态中的重要一环,双方正在讨论如何共建。“你就像走进一个超市,里面有10万个SQL,每个SQL就是一个实现了你商业逻辑的模型,你就拿来用就好了,这是终极的一个目标”,谢梁兴奋地谈到。
固然如今的SQLFlow仍是一个很是年轻的开源项目,须要更多的呵护。虽然目前在开源合做方面中国相比美国还有很多差距,但正是由于愈来愈多的公司和我的去投身其中为之贡献,差距正在缩小。
实际上,几乎全部的SQLFlow项目成员都是利用业余时间参与到开源项目中。好比滴滴资深算法工程师陈祥,他平时负责数据治理和应用方向上数据、应用与算法的结合和落地, 在8月初听到SQLFlow项目就决定参与进来,将来他也会号召不少的人参与到开源建设中。
“开源社区所说的构建大生态,其实大生态还包含着另一层,就是你们互相学习,而后行业内的全部从业人员进行知识交流。因此当各行各业的同窗都在里面贡献本身的经验、技能时,咱们其实也能从其余的同窗那学习到不少处理数据,或者解决实际问题的方法。”高梓尧所言恰如其分地诠释了开源社区众人拾柴火焰高的魅力。
Gartner预测“到2020年,AI技术将广泛出如今几乎每个新的软件产品和服务中。”这其中有蚂蚁金服与滴滴DS团队的一份力。
项目地址:
欢迎感兴趣的同窗加入社区讨论:
项目官网:https://sqlflow.org
GitHub地址:
https://github.com/sql-machin...
您也可使用docker,运行文章中的汽车价格预测模型 :
docker run -p 8888:8888 sqlflow/sqlflow:didi
同时也欢迎你们关注滴滴技术公众号,咱们会及时发布最新的开源信息和技术资讯!