AI算法在云音乐搜索中的应用实践

做者:王新欣web

整理:AIFounder算法

AI算法在云音乐搜索的应用网络

1、云音乐介绍

1.1 关于云音乐

图片

 

1.2 云音乐-内容

分为几大模块app

分别为歌曲、UGC歌单、评论、社区Mlog、视频、直播框架

图片图片

1.3 云音乐-搜索

1 用户需求仅仅是一首歌曲? 学习

2 如何理解用户并匹配? 优化

3 如何给用户更好的资源? ui

4 如何给业务赋能?spa

图片图片

1.4 云音乐搜索框架概览

图片

 

基于以上的内容,本文会着重介绍两大模块设计

1 Query的理解图片

2 排序模型

图片

2、Query理解体系 - 搜索的基石

2.1 Query理解体系的演进

图片

 

2.1.1 意图识别:深度学习对意图识别的完善

为何作意图识别?不一样意图,对应不一样的域,召回的内容相关与否,直接影响用户体验云音乐query意图占比 6月份为例,当时,依然有51%的query意图不明

图片

 

图片

云音乐的Query量千万级别,人工标注耗时耗力 ,如何快速扩展?须要借助技术来实现

图片

2.1.2 意图识别 - 扩展样本

图片

 

举例:

图片

2.1.3 意图识别 - 在线识别

线上预测:TextCnn , Fasttext, LSTM, RCNN, C-LSTM , XLNet +TextCNN ,Bert +ABSA

使用:Fasttext.

优势:鲁棒性更强,速度快,精度高。

图片

2.1.4 使用异质图网络HGAT作意图识别

步骤:

一、经过用户行为,异质图构建

二、使用Bert进行初始化

三、使用邻居节点表示当前节点

四、节点分类

图片​ 图片

2.1.5 Tag类示例

图片

 

2.2 相关性计算、匹配

图片

2.2 传统相关性匹配

特色:

1)纯字面匹配 - 没法获得语义层面的信息 

2)引擎侧能够支持必定模糊度 - 但泛化能力较差,人工经验多 

3)常常会出现召回的内容差的状况 

4)排序侧,人工设计特征:字段、匹配度等

图片

图片

2.3 基于点击的相关性演进

图片

 

2.3.2 基于点击的相关性—Graph Embedding

图片​ 图片

 

  • Graph Embedding简述

    • 目标:节点以低维稠密向量的形式进行表达

    • 认为:图中类似,映射到低维度空间类似

    • 图中每一个圆圈表明一个节点

  • 音乐搜索场景的应用

    • query和item抽象为图中的节点,经过用户行为链接

    • 应用:

2.3.2 Graph Embedding —Node2vec

那该怎么控制走向呢?

游走结果示例:

图片图片

2.3.2 Graph Embedding —Node2vec

  基于边的权重进行随机游走

图片

 

1、过程 对每一个节点n有 Repeat 1 以n0为初始点,根据边的权重选择一个与之链接的节点neighbor1 加入walk中

2 以walk队列中最后的那个做为起始,持续1的动做

3 根据指定条件终止

2、权重计算 (共同决定:但愿walk节点内聚,相关性高 ) α: 控制广度、深度优先的偏执系数 α

w:实现差别化的节点与节点之间的权重w

深、广度做用:

深度优先:防止walk掉头,促使walk走向更远的地方 广度优先:促进游走不断的回头,去访问上一步结点的其余邻居结点(云音乐)

图片

2.3.2 Graph Embedding —Node2vec

 使用word2vec训练节点向量

图片

总结 

一、假设节点、query分布一致,符合模型 理论基础,适合Emb计算 

二、转成word2vec计算embedding,获取 相关性

三、霍夫曼树层次softmax的分类树,减小 分类的所需的资源 

四、与DeepWalk相比,由于边的权重控制, 模型受离群点影响小,更具内聚性

2.3.2 Graph Embedding —Node2vec

图片

3 表征:基于深度模型的语义表征

2.3.1 基于深度模型的语义表征

图片

2.3.2 基于深度模型的语义表征

图片

2.3.3 基于深度模型的语义表征

示例 :

图片

3、内容体系

3.1 排序模型演进

图片图片

 

3.2排序模型—深度时序模型

1、背景:1 时序模型特色:刻画 “事件”演进,理解用户兴趣变动;将NLP“时序” 学习,迁移到CTR;不一样模型刻画程度不一样 2 相似商品,用户的听歌时序,也是在不断演进的 2、优化几点Tip: 1 从用户的角度出发,能够建多条不一样兴趣的队列,也能够给业务建 兴趣队列 2 时间的选取上能够进行细分 3 将时间分桶,进行位置“表征”

初版,点击率1%,收藏率1.5%提高。

图片

3.3 排序模型—联合学习

背景:1 某场景的体验优化,同时要兼顾业务A的产出 2 效果与业务在一个空间下,差别性:多了一个业务侧的用 户画像、Item画像 3 一样是CTR到CVR的转化,典型的CVR样本稀疏

历程:

图片图片

样本采起上的改进:

图片

模型改造:

图片

具备区分度:

图片

3.4排序模型—多资源排序

背景:

1 云音乐内容类型多,用户不一样意图、不一样时刻,对内容的 需求不一样,须要让用户偏好的资源排在首屏、第二屏 

2 多内容,具备区分度,又有关联性。内容彼此比较有难度 

3 综合页的内容排序具备流量分配的做用。提升效能的同时 也能为业务赋能

多内容排序实例

图片

3.5 排序模型—多资源排序(BST-MVDNN)

问题:

  1. 用户行为序列是否须要区分不一样资源类型?

  2. 用户行为序列是否须要区分不一样的消费类型?

  3. Transformer Layer Position Embedding表达?

  4. 不一样模块特征表达, User-Model共享?

    图片

3.6排序模型—多资源排序(BST-MVDNN)

实践:

1 User-Model的共享,采用MV-DNN 

2 Position Embedding采用logtime的离散化embedding表达

3 序列:用户搜下下的资源消费行为序列+全站消费序列、中长期序列表达

4 采用统一的序列建模,保证资源序列的完整性

图片

4、思考

内循环(算法体系)带动外循环(业务体系)

4.1 内循环带动外循环

图片

 

4.2 内循环

图片

 

4.3 外循环

图片

相关文章
相关标签/搜索