训练效能提高2-4倍!京东携SparkGBM成果亮相Spark Summit 2018

编辑 | Natalie
AI 前线导读: 一年一度的 Spark Summit 2018 近日如期在美国旧金山举行,今年的主题是 Spark+AI。做为大数据领域的顶级会议,Spark Summit 2018 吸引了全球近 2000 位技术大咖参会。来自京东智能广告实验室(JD Intelligent Advertising Lab,如下简称“JDIAL”)的资深研究员郑瑞峰作了主题分享,重点阐释了京东如何利用并改进 Spark 计算框架,从而提高营销效果。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

做为中国线上线下最大的零售商,京东拥有超过 3 亿的活跃用户,数十亿的商品。所以海量数据的高效处理和用户数据的深度洞察是京东面临的重要课题。“用户分层、交叉营销、人群定向是咱们在数据应用领域的三个重要场景”,郑瑞峰在演讲时表示:“首先在用户分层上,京东结合互联网时代营销学理论与京东多渠道海量数据自身特色,独创了用户 4A 成长模型,将用户划分为Awareness、Appeal、Action 和 Advocacy 四种状态,经过咱们打造的智赢服务,更好地帮助广告主进行效果分析和人群资产沉淀;其次京东基于 Spark 的模式挖掘算法,分析出最佳的交叉营销建议,而且针对现有算法的缺点,加强了 Lift 指标的计算和通用规则模式的挖掘;最后基于京东海量数据进行消费者购买预测,详细描述了召回 - 排序 - 投放的数据流程”。算法

在不断实践的同时,JDIAL 还对 Spark 作出了诸多深度改进,总结了一系列有价值的经验。主要包括:重构了诸多已有算法以支持 Multi-Column Parallelization,在输入列较多的状况下,运行效率提高了 10 倍以上,这些改进已被社区采纳;另外经过全面比较 RDD 和 DataFrame/Dataset,首次明确指出 DataFrame/Dataset 并非 Silver Bullet,在某些场景下其效率反而弱于 RDD,并进一步详细分析了二者各自的适用场景。微信

与此同时,郑瑞峰指出了 MLlib 机器学习算法库三个亟待改进的方面:框架

  • 第一,算法须要支持 Warm Start,这将大大提升 Convergence Ratio,支持 Continuous Training,并将加强解的稳定性(特别是在非凸问题中);机器学习

  • 第二,算法须要支持 Callback,这可支持 Model Checkpointing 从而减少非可预见性 Crush 对长时间训练的影响,并支持 Early Stopping 从而避免过拟合和发散时浪费的计算开销;学习

  • 第三,算法须要支持 Compact Numeric Format,机器学习算法的容错性在大部分状况并不须要以双精度形式存储数据和模型,单精度甚至半精度每每足以知足需求,这将大大减小算法的内存开销并提升计算效率。大数据

据郑瑞峰介绍,在 ALS 算法上,JDIAL 自主研发了支持 Warm Start 的版本,将训练效率提高 40% 左右,并经过支持 Model checkpointing 提高了运行的稳定性。在机器学习的核心算法 -GBM 算法上,JDIAL 建立并开源了新项目 SparkGBM,其彻底兼容 MLlib Pipeline,融合了 Spark-GBT、XGBoost 和 LightGBM 各家之长。SparkGBM 采用原生 Spark 做为底层计算引擎,有效避免了 XGboost 和 LightGBM 等异构 ML 框架带来的数据在不一样框架下的 Double Caching 问题、难以对异构框架进行资源监控、须要额外的部署维护成本等一系列问题。SparkGBM 同时也包含了一系列效率优化的努力,如针对海量数据设计了 Partition-Based Sampling 以提高采样效率,根据数据状况自动选择最佳的 Histogram 存储格式,采用 Histogram Subtraction 技术减小通讯开销等,经过这一系列的优化,使 SparkGBM 的训练效率达到 Spark-GBT 的 2~4 倍优化

关于京东智能广告实验室:

京东智能广告实验室 (JDIAL) 隶属京东商业提高事业部,主要从事智能广告相关的基础研究和应用研究,研究范畴涵盖视频图像、NLP、大规模机器学习、深度学习、推荐技术、广告机制等多个领域。实验室成员包括有学术能力的硕士、博士研究生,以及经由实验室招募的优秀学者、在行业内和学术圈内有技术影响力的科学家。目前京东智能广告实验室累计拥有研究成果几十项,其中多个项目荣获京东集团技术创新奖项,多篇论文被国内外知名学术机构收录。设计

相关文章
相关标签/搜索