Mahout推荐算法基础

时间 2019-11-13

标签 mahout 推荐算法基础繁體版

原文原文链接

转载自（http://www.geek521.com/?p=1423）程序员

Mahout推荐算法分为如下几大类算法

GenericUserBasedRecommendersql

算法：数据库

1.基于用户的类似度apache

2.相近的用户定义与数量ide

特色：idea

1.易于理解rest

2.用户数较少时计算速度快htm

GenericItemBasedRecommender接口

算法：

1.基于item的类似度

特色：

1.item较少时就算速度更快

2.当item的外部概念易于理解和得到是很是有用

SlopeOneRecommender（itemBased）

算法：

1基于SlopeOne算法（打分差别规则）

特色

速度快

须要预先计算

当item数目十分少了也颇有效

须要限制diffs的存储数目不然内存增加太快

SVDRecommender （item-based）

算法

基于支持向量机（item的特征以向量表示，每一个维度的评价值）

特色

须要预计算

推荐效果佳

KnnItemBasedRecommender （item-based）

相似于GenericUserBasedRecommender 中基于类似用户的实现（基于类似的item）

与GenericItemBasedRecommender 的主要区别是权重方式计算的不一样（but, the weights are not the results of some similarity metric. Instead, the algorithm calculates the optimal set of weights to use between all pairs of items=>看的费劲）

TreeClusteringRecommender

算法

基于树形聚类的推荐算法

特色

用户数目少的时候很是合适

计算速度快

须要预先计算

基于模型的推荐算法、基于满意度得推荐算法（未实现）

Mahout中的数据输入

DataModel

如下包含

GenericDataModel

数据接口类基于内存

内部使用FastByIDMap 保存PreferenceArray，在PreferenceArray内保存用户->Item的评价值

GenericBooleanPrefDataModel.

基于内存的数据接口类

可是无用户偏好值

使用FastByIDMap<FastIDSet>为用户或者Item保存相关的Item或者用户。

FileDataModel

基于文件的数据接口内，内部使用GenericDataModel 保存实际的用户评价数据

增长了压缩文件（.zip .gz）等文件类型的支持

支持动态更新（更新文件文件名必须保存为必定的格式例如 foo.txt.gz 后续更新文件必须为foo.1.txt.gz）

查了如下代码好像是自定义时间间隔后能够更新，可是好像是所有更新（之后看代码）

JDBCDataModel

基于数据库的数据接口目前已经实现MySQLJDBCDataModel（支持MySQL 5.x）可使用MysqlDataSource生成MySQLJDBCDataModel

注：0.7版本里面没有找到MySQLJDBCDataModel类多了一个MySQLJDBCIDMigrator

不知道关系如何

PlusAnonymousUserDataModel.

用于匿名用户推荐的数据类将所有匿名用户视为一个用户（内部包装其余的DataModel类型）

Mahout中的类似度计算

主要按照基于User，基于Item等

之内存方式保存类似度计算结果使用FastByIDMap<FastByIDMap<Double>>保存计算结果

CachingItemSimilarity

CachingUserSimilarity

以cache方式保存类似度计算结果防止每次请求是重复计算

内部使用 Cache<LongPair,Double> similarityCache保存类似度

与 GenericUserSimilarity用法和区别暂时看不懂

Mathout中实现的基于不一样算法类似度度量的：

PearsonCorrelationSimilarity 皮尔逊距离

EuclideanDistanceSimilarity 欧几里德距离

CosineMeasureSimilarity 余弦距离（0.7变成了 UncenteredCosineSimilarity）

SpearmanCorrelationSimilarity 斯皮尔曼等级相关

TanimotoCoefficientSimilarity 谷本相关系数

LogLikelihoodSimilarity 通常好于TanimotoCoefficientSimilarity（不懂）

CityBlockSimilarity基于曼哈顿距离

类似度使用的典型用法

UserSimilarity similarity = new CachingUserSimilarity(

new SpearmanCorrelationSimilarity(model), model);

对缺失数据的处理

PreferenceInferrer 数据丢失或者数据太少时可能用到具体实现有 AveragingPreferenceInferrer 以平均值填充缺失数据

通常来讲PreferenceInferrer除了增长计算量对推荐结果无任何影响（缺失值根据已有数据得出）因此通常只用于研究领域。

聚类的类似度

ClusterSimilarity

聚类的类似度用于两个不一样的聚类之间的距离（相似坐标系内的距离）

目前聚类之间的距离计算只包含如下两个实现（暂时没有更好的实现算法）

NearestNeighborClusterSimilarity 计算两个聚类中全部项距离中的最小距离

FarthestNeighborClusterSimilarity 计算两个聚类中全部项距离中的最大距离

作个小推广：程序员常常久坐，颈椎毛病比较多，特别推荐ventry颈椎保健枕