推荐算法-基于内容的推荐

根据推荐物品的元数据发现物品的相关性,再基于用户过去的喜爱记录,为用户推荐类似的物品。算法

1、特征提取:抽取出来的对结果预测有用的信息机器学习

对物品的特征提取-打标签(tag)学习

  • 用户自定义标签(UGC)
  • 隐语义模型(LFG)
  • 专家标签(PGC)

对文本信息的特征提取-关键词编码

  • 分词、语义处理和情感分析(NLP)
  • 潜在语义分析(LSA)

2、特征工程:使用专业背景知识和技巧处理数据,使得特征能在机器学习算法上发挥更好的做用的过程spa

特征工程步骤:3d

一、特征清洗blog

二、特征处理:特征按照数据类型分类,有不一样的特征处理方法文档

    a、数值型:class

      归一化:变量

      离散化:

       离散化的两种方式:等步长【简单】、等频【更精准,但每次须要对数据分布进行从新计算】

    b、类别型:数据自己没有大小关系,要作到公平,又可以分开他们

      One-Hot编码/哑变量:将类别型数据平行的展开【特性空间会膨胀】。

    c、时间型:既能够作离散值又能够看做连续值

    d、统计型:加减平均、分位线、次序性,比例类

三、特征选择

3、基于UGC的推荐

一、用户生成标签(UGC):

用户用标签来描述对物品的见解,因此用户生成标签(UGC)是联系用户和物品的纽带,也是反应用户兴趣的重要数据源

二、三元组(用户u,物品i,标签b) :用户u给物品i打上了标签b

三、用户u对物品i的兴趣公式为:

四、UGC问题:

倾向于给热门标签、热门物品比较大的权重,推荐的个性化、新颖度就会下降 

4、词频-逆文档频率(Term Frequency-Inverse Doucment Frequency TF-IDF

TF-IDF:信息检索与文本挖掘的经常使用加权技术。

用以评估一个字词对于一个文件集或一个语料库中的其中一份文件的重要程度。

字词的重要性随着它在文件中出现的次数成正比增长,但同时会随着它在预料库中出现的频率成反比降低。

TF-IDF的主要思想是:

若是某个单词在一篇文章中出现的频率TF高,而且在其余文章中不多出现,则认为此词或者短语具备很好的类别区分能力,适合用来分类

相关文章
相关标签/搜索