本文由 「 AI前线」原创,原文连接: 红豆Live推荐算法中召回和排序的应用和策略
做者|胡南炜
编辑|Emily
AI 前线导读:”有人曾说,“语音直播产品红豆 Live 的忽然出现,让沉寂了一段时间的语音知识付费市场又从新燃起了生机”,让语音直播这个小众市场从新吸引了大众的注意力,让声音爱好者找到知音和志同道合之友。但红豆 Live 也用了 AI 这个事实,你知道吗?用到了哪些 AI 技术?推荐算法如何帮助它在众多语音直播产品中脱颖而出?对有意采用 AI 技术的公司有何启示?InfoQ 将在这篇文章中揭开这些问题的答案。”算法
InfoQ 编辑对微博机器学习计算和服务平台负责人胡南炜进行了采访,询问了关于微博旗下的语音直播平台——红豆 Live 应用 AI 技术的详细状况,以及他对 AI 的深刻了解和趋势预测。网络
红豆 Live 的 AI 布局机器学习
据该产品官网数据显示,2017 年 1 月,红豆 Live 面向大众全面开放,KOL 入驻量达 5000+,主播总数量 4 万人,开启了一个全民语音直播的时代。而这款产品的成功,按照该公司的说法,是“AI 发挥的做用不可忽略”。那么,红豆 Live 中究竟采用了哪些 AI 技术?这家公司在 AI 技术方面是否有着深远的布局呢?ide
从技术层面讲,红豆 Live 在 AI 领域使用了语音识别、推荐排序等深度学习技术;其中在推荐排序中红豆 Live 经历了三次算法迭代,从协同过滤到基于内容的推荐,最后到基于音频谱图隐藏特征的深度学习预测模型的演进。“每次的算法迭代都是为了解决用户发现更多优质主播以及提升语音直播内容传播的目标。”胡南炜说道。布局
众所周知,企业采用 AI 技术须要高昂的成本,在采用这些技术后究竟能产生多大的效果,这是人们很是关心的问题。胡南炜表示,红豆 Live 的推荐模型目标是发现更多主播、用户留存、平均收听时长 3 项。在应用深度学习预测模型后,从数据表现上,该平台的主播发现率较人工运营时提升了 135%,用户留存率提高 20%,平均收听时长增加 80%。这款产品在应用 AI 后三个重要指标均有较大上涨,所以能够说,深度学习模型对于其业务是有着明显影响的。学习
语音直播相对来讲受众数量较小,那这类产品靠什么来吸引用户呢?胡南炜认为,虽然语音直播受众数量较小,但确实有效解决了一部分垂直用户的痛点需求。在他看来,直播主要能够知足用户两个方面的需求:娱乐需求和价值需求。顾名思义,娱乐需求是指人们对于娱乐的追求以得到精神知足,直播等视听感觉结合的形式能够知足大众的娱乐需求;而知足价值需求,是指直播能给用户带来专业的知识、实用的技能、思路的启发等具备实际意义的东西,解决现实问题。在这方面,他认为语音直播更具优点。另外,音频直播能够更好的将用户的注意力聚焦在内容自己上并下降直播成本,AI 能够帮助忠粉和垂直用户更便利、更有针对性的获取到本身所喜欢的语音内容,从而解决内容获取的痛点。大数据
推荐系统的技术支持详情云计算
推荐系统的成功离不开背后的技术支持,而部署 AI 更须要强大的技术来作支撑。3d
红豆 live 推荐系统中使用 CNN+LSTM 用在标签服务里面,把直播间中一些隐藏特征自动化的提取、关联、抽象出来,准备率比起传统机器学习算法大大提升。在 Wide & Deep 排序中,使用宽深度学习网络结合 LR,不只仅使特征工程的工做量工程量大为下降,并且排序模型的记忆能力和泛化能力比单独使用 LR 提升很多。”从中咱们能够看到,推荐系统的算法支持使得红豆 Live 的业务能力显著提升。日志
然而,没有任何算法是天衣无缝的。“红豆 Live 推荐系统主要的缺陷是,推荐系统中的冷启动问题。对于新用户,咱们没法获取他们的行为日志和 query 日志。“而针对这个问题,他们有弥补的方法,”由于红豆 live 用户和微博用户重合度为 90%,能够利用该用户的微博兴趣标签,解决用户的冷启动问题。”胡南炜说道。
关键技术召回和排序的做用和策略
红豆 Live 推荐系统中的两个关键技术分别是召回和排序,其中在召回层用到的策略,是基于 item 的协同过滤,基于用户 query 的 CTR 进行召回,和基于用长短时间兴趣的进行召回。而在排序层,则使用 Wide & Deep 网络,主要基于召回层的 item 进行融合、排序,最终选出 top N 个 item 推荐用户。
召回层的做用在于根据用户的不一样兴趣,从海量 item 中选出数百个用户感兴趣的 item。而排序层的做用则是基于用户的一些特征,对召回层的 item 再次进行打分排序,更精准地选出用户感兴趣的 item。
具体工做流程
此外,胡南炜还为咱们揭示了红豆 Live 推荐算法的具体工做流程:
第一,对用户的行为日志进行利用 JStorm 实时收集,并定时更新基于 item 的协同过滤内容。
第二,对直播间内容进行利用 JStorm 实时收集,实时为直播间打上分类标签、topic、主题词等标签,并定时更新用户画像内容。
第三,对用户 query 日志利用 JStorm 实时收集,定时计算用户 query 的 CTR。
最后,当用户进行刷新时,利用召回策略进行召回,再根据排序策略选择 top N 呈现给用户。
AI 识别“少儿不宜”内容准确率提升
“三俗”内容识别一直是正规内容平台严格把关的方面,AI 可以在这一方面发挥更大的做用。红豆 Live 因为采用了能够提取更丰富特征的新算法,对"三俗"内容进行过滤,所以准确率相较传统机器学习算法有了很大提高。为了保障用户体验,其针对“三俗”内容分别训练模型以及使用敏感词的策略,在对用户进行推荐前,对推荐内容进行实时过滤。
过拟合问题是最大挑战
而被问及红豆 Live 的推荐系统在开发应用过程当中遇到的最大困难是什么时,胡南炜表示,任何 AI 技术应用的过程当中,神经网络的过拟合问题都是让人头疼的问题,红豆 Live 也不例外,在开发过程当中遇到的最大挑战就是它。而他们解决这个问题的思路主要有三点:添加 dropout 层、进行正则化,以及当 loss 和 acc 稳定即中止训练,这或许对咱们有所启发。
对 AI 发展趋势的预测
最后,InfoQ 请胡南炜对 AI 行业在将来的发展趋势进行了预测,单就语音直播领域来讲,胡南炜认为 AI 技术在语音直播内容分发,以及知足用户个性化语音内容需求等方向会带来深远的影响。“若是说用户碎片时间主要被社交、阅读、音视频等 APP 占据,那么不久的未来也必定会增长语音直播类。”他说道。
而在 2018 年 AI 将有什么样的发展趋势这一问题上,他认为 AI 技术的应用将更加垂直化,AI 技术深刻到用户平常生活的每个方面,好比语音直播。
胡南炜表示,非监督类学习将是红豆 Live 下一步的探索,“咱们有这方面的摸索计划,好比在没有标注数据的前提下,咱们经过聚类算法将语音直播内容造成一个个的簇,从而作一些粗粒度的随机推荐。”
注:本文观点仅表明受访者本人意见,与受访者所在公司无关。
讲师简介
胡南炜,毕业于北京航空航天大学计算机科学和工程系,在这里完成博士学业以后多年从事软件工程研发和互联网,我的技术专长为大数据、云计算技术和机器学习。他于 2014 年加入微博,负责微博机器学习计算和服务平台开发。在此以前,曾经在 IBM、Yahoo 等公司工做。
更多干货内容,可关注AI前线,ID:ai-front,后台回复「AI」、「TF」、「大数据」可得到《AI前线》系列PDF迷你书和技能图谱。