网易云课堂个性化推荐实践与思考

时间 2021-04-29

原文原文链接

做者/ 韩虹莹
编辑/ Ein

从人和信息的博弈谈推荐系统缘起

首先谈谈我理解的推荐系统。算法

若是说推荐系统的定义是什么，每本书每篇文章说的都不太同样，协同过滤1992年就已经有了，三十年里无数大佬分析了个性化推荐的缘起和意义，世界已经不须要多一我的的看法。可是，当全部人都说一件事情是正确的时候，咱们也要想清楚它为何是正确的。架构

若是你问我推荐系统是什么，我会告诉你，是信息到人的精准分发。那么为何在这个时代推荐系统才应运而生？古人不会须要信息精准分发，车马信息都很慢，古人学富五车不过如今一个书包的信息量；惟有如今人才须要信息精准分发，信息太多时间太少，乱花渐欲迷人眼，因此咱们须要一个智能的系统，帮助你过来过滤信息，因此推荐系统是人和信息的桥梁。机器学习

固然，正如罗马不是一天建成的同样，在互联网上搭个桥也是要演进的，最开始是个小木桥——门户网站，用分类导航分发了信息；后来演化到了石板桥——搜索引擎，人能够更精准的找信息；逐步的信息太多了，要变成信息找人，在这个过程当中，不管是信息的消费者，仍是信息的生产者，都遇到了未曾预见的困难，信息消费者找不到信息了，信息生产者没法让本身的信息展示在消费者眼前，有痛点就有需求，有需求就有产品，因而推荐系统做为一个产品，恰到好处又必然的到来。凯文凯利在《必然》里，把这个趋势称为“过滤”：ide

进行过滤是必然的，由于咱们在不停地制造新东西。而在咱们将要制造的新东西中，首要的一点就是创造新的方式来过滤信息和个性化定制，以突显咱们之间的差别。

人如何和信息相处，推荐系统既不是起点，恐怕也不会是终局，但它已是当前人们对于处理信息所能作的最好的实践了。函数

大厂如何玩转推荐系统

大厂实践比较

这里选取了几个比较典型的推荐系统实现，他们分别属于几种推荐系统的典型场景

深度学习算法比较

针对几个大厂部分采用了一些深度学习的模型，这里也调研对比了深度学习模型的特色和优劣势

云课堂的个性化推荐

特征工程

主要选用了用户行为数据，用户行为数据在推荐系统中有显性反馈行为和隐性反馈行为两种，在云课堂场景下，用户的评分属于显性行为，用户的购课，学习，作笔记等都属于隐性行为。对于这些行为，咱们根据业务重要程度，都给出了初始分数，生成了用户-课程的初始评分矩阵

评分矩阵简单表示以下：

算法选型

在个性化推荐系统搭建初期，因为咱们是从0到1开始构建，因此并无选择在初期选择复杂的深度学习算法，以及构建丰富的用户画像，但愿在初期快速构建一个MVP版本上线，后续逐步反思优化迭代

因此在算法选型上，咱们从下面三种方案中进行评估选择

基于标签匹配
基于用户/行为的协同过滤
基于矩阵分解的协同过滤

那么咱们是如何进行取舍的？

关于方案一，若是但愿方案一取得较好的效果，关键点在于依赖标签体系的建设，只有标签体系足够完善，也就是说，推荐结果的好坏，是可预计的，强依赖于标签体系的建设的。

关于方案二，它的缺点在于处理稀疏矩阵的能力较弱，而云课堂中用户的学习行为并不能算是高频行为，同时头部效应明显，而咱们但愿的是经过个性化推荐系统，挖掘更多隐含的可能性，保留更多平台上更多平时没机会暴露的课程，显然基于近邻方式的协同过滤，不是一个很合适的选择。而基于矩阵分解的方法能够必定程度上加强稀疏矩阵的处理能力，同时引入隐向量，能够从用户行为中挖掘更多的可能性。

咱们选用了基于ALS（交替最小二乘法）的矩阵分解模型做为第一个实践的算法，采用的是Spark MLlib提供的API。

在ALS模型的构建过程当中，须要调整以下几个参数以取得最好的效果

对于上面几个参数，分别调整了几回参数，以MSE 和 RMSE 做为评价指标

均方偏差（ Mean Square Error , MSE）和均方根偏差( Root Mean Square Error , RMSE) 常常被用来衡量回归模型的好坏。通常状况下， RMSE 可以很好地反映回归模型预测值与真实值的偏离程度。但在实际应用时，若是存在个别偏离程度很是大的离群点，那么即便离群点数量很是少，也会让这两个指标变得不好。

工程落地

一个能够落地的推荐系统，数据收集模块，ETL模块，特征工程模块，推荐算法模块，Web服务模块模块是必不可少的，首先来一个总体架构图：

接下来简单对几个模块的实现进行说明：

参考文献

1.《深度学习推荐系统》王喆

2.《推荐系统原理与实践》 Charu C. Aggarwal

-END-

网易云课堂个性化推荐实践与思考

从人和信息的博弈谈推荐系统缘起

推荐系统要如何知足需求

推荐系统常规架构

推荐系统常见模型概述与比较

机器学习推荐模型演化过程

协同过滤

基于用户协同过滤

基于物品协同过滤

矩阵分解

显示矩阵目标函数

隐式矩阵目标函数

逻辑回归→POLY2→FM→FFM

POLY2模型——特征的“暴力”组合

FM——隐向量的特征交叉

FFM——特征域

模型演化的形象化表示

POLY2模型

FM模型

FFM模型

传统机器学习算法比较