关于推荐算法的一些思考

时间 2019-11-11

标签关于推荐算法一些思考栏目兴趣爱好繁體版

原文原文链接

关于推荐算法的一些思考html

最近作了一个交叉销售的项目，梳理了一些关键点，分享以下，但愿对你们有所启发算法

核心目标：在有限资源下，尽量的提供高转化率的用户群，辅助业务增加dom

初步效果：商家ROI值为50以上，用户日转化率提高10倍以上，用户日最低转化效果5pp以上函数

如下为正文：spa

数据准备：rest

1.商品相关性code

存在商品A,B,C...，商品之间用户会存在行为信息的关联度，这边能够参考协调过滤算法中的Item-based，这边拓展为用户在不一样商品之间的操做行为的差别性。

能够造成以下的特征矩阵：
orm

这边相关的常见度量方式有如下几种：htm

a.距离衡量生命周期

包括浏览、点击、搜索等等各类行为的欧式、马氏、闵式、切比雪夫距离、汉明距离计算

b.类似度衡量

包括余弦类似度、杰卡德类似度衡量

c.复杂衡量

包括相关性衡量，熵值衡量，互信息量衡量，相关距离衡量

2.商品行为信息

探求商品及其对应行为信息的笛卡尔积的映射关系，获得一个商品用户的行为魔方

商品集合：{商品A、商品B、...}
商品属性集合：{价格、是否打折、相比其余电商平台的比价、是否缺货...}
用户行为集合：{浏览次数、浏览时长、末次浏览间隔、搜索次数、末次搜索间隔...}

经过商品集合*商品属性集合*用户行为集合,造成高维的商品信息魔方，再经过探查算法，筛选优秀表现的特征，这里推荐的有pca，randomforest的importance，lasso变量压缩，相关性压缩，逐步回归压缩等方法，根据数据的属性特色可适当选取方法

最后，咱们会获得以下一个待选特征组：

3.商品购买周期

针对每一件商品，都是有它自身的生命周期的，好比，在三个月内买过冰箱的用户，95%以上的用户是不会选择二次购买的；而在1个月的节点上，会有20%的用户会选择二次购买生活用纸。因此咱们须要作的一件事情就是不断更新，平台上面每一个类目下面的商品的自身生命周期。除此以外，考虑在过渡时间点，用户的需求变化状况，是否能够提早触发需求；这边利用，艾宾浩斯遗忘曲线和因子衰减规律拟合：

肯定lamda和b，计算每一个用户对应的每一个类目，当前时间下的剩余价值：f（最高价值）*lamda*b

4.商品挖掘特征，用户挖掘特征

业务运营过程当中，经过数据常规能够获得1.基础结论，2.挖掘结论。基础结论就是统计结论，好比昨日订单量，昨日销售量，昨日用户量；挖掘结论就是深层结论，好比昨日活跃用户数，每日预估销售量，用户生命周期等

存在以下的探索形式，这是一个漫长而又很是有价值的过程：

模型整合

再肯定以上四大类的数据特征以后，咱们经过组合模型的方法，判断用户的交叉销售结果

1.cart regression

确保非线性密度均匀数据拟合效果，针对存在非线性关系且数据可被网格切分的产业用户有高的预测能力

2.ridge regression

确保可线性拟合及特征繁多数据的效果，针对存在线性关系的产业用户有高的预测能力

3.Svm-liner

确保线性且存在不可忽视的异常点的数据拟合效果，针对存在异经常使用户较多的部分产业用户有高的预测能力

4.xgboost

确保数据复杂高维且无明显关系的数据拟合效果，针对存在维度高、数据杂乱、无模型规律的部分产业用户有高的预测能力

以上的组合模型并不是固定，也并不是必定所有使用，在肯定自身产业的特色后，择优选择，而后采起投票、加权、分组等组合方式产出结果便可。

附上推荐Rcode简述，

cart regression：

library(rpart)

fit <- rpart(y~x, data=database, method="class",control=ct, parms = list(prior = c(0.7,0.3), split = "information"));

## xval是n折交叉验证
## minsplit是最小分支节点数，设置后达不到最小分支节点的话会继续分划下去
## minbucket：叶子节点最小样本数
## maxdepth：树的深度
## cp全称为complexity parameter，指某个点的复杂度，对每一步拆分,模型的拟合优度必须提升的程度
## kyphosis是rpart这个包自带的数据集
## na.action：缺失数据的处理办法，默认为删除因变量缺失的观测而保留自变量缺失的观测。
## method：树的末端数据类型选择相应的变量分割方法:
## 连续性method=“anova”,离散型method=“class”,计数型method=“poisson”,生存分析型method=“exp”
## parms用来设置三个参数:先验几率、损失矩阵、分类纯度的度量方法（gini和information）
## cost我以为是损失矩阵，在剪枝的时候，叶子节点的加权偏差与父节点的偏差进行比较，考虑损失矩阵的时候，从将“减小-偏差”调整为“减小-损失”

ridge regression：

library（glmnet）

glmmod<-glmnet(x,y,family = 'guassian',alpha = 0)

最小惩罚：

glmmod.min<-glmnet(x,y,family = 'gaussian',alpha = 0,lambda = glmmod.cv$lambda.min)

1个标准差下的最小惩罚：

glmmod.1se<-glmnet(x,y,family = 'gaussian',alpha = 0,lambda = glmmod.cv$lambda.1se)

Svm-liner ：

library(e1071)

svm(x, y, scale = TRUE, type = NULL, kernel = "",degree = 3, gamma = if (is.vector(x)) 1 else 1 / ncol(x),coef0 = 0, cost = 1, nu = 0.5, subset, na.action = na.omit)

##type用于指定创建模型的类别:C-classification、nu-classification、one-classification、eps-regression和nu-regression

##kernel是指在模型创建过程当中使用的核函数

##degree参数是指核函数多项式内积函数中的参数，其默认值为3

##gamma参数给出了核函数中除线性内积函数之外的全部函数的参数，默认值为l

##coef0参数是指核函数中多项式内积函数与sigmoid内积函数中的参数，默认值为0

##参数cost就是软间隔模型中的离群点权重

##参数nu是用于nu-regression、nu-classification和one-classification类型中的参数

xgboost:

library(xgboost)

xgb <- xgboost(data = data.matrix(x[,-1]), label = y, eta = 0.1,max_depth = 15, nround=25, subsample = 0.5,colsample_bytree = 0.5,seed = 1,eval_metric = "merror",objective = "multi:softprob",num_class = 12, nthread = 3)

##eta：默认值设置为0.3。步长，控制速度及拟合程度

##gamma:默认值设置为0。子树叶节点个数

##max_depth:默认值设置为6。树的最大深度

##min_child_weight:默认值设置为1。控制子树的权重和

##max_delta_step：默认值设置为0。控制每棵树的权重

##subsample：默认值设置为1。抽样训练占比

##lambda and alpha：正则化