mahout第一篇-----Mahout学习路线图

Mahout学习路线图


前言程序员

Mahout是Hadoop家族中不同凡响的一个成员,是基于一个Hadoop的机器学习和数据挖掘的分布式计算框架。Mahout是一个跨学科产品,同时也是我认为Hadoop家族中,最有竞争力,最难掌握,最值得学习的一个项目之一。web

Mahout为数据分析人员,解决了大数据的门槛;为算法工程师,提供基础的算法库;为Hadoop开发人员,提供了数据建模的标准;为运维人员,打通了和Hadoop链接。算法

Mahout就是训象人,在Hadoop上创造新的智慧!框架

目录运维

  1. Mahout介绍
  2. Mahout学习路线图
  3. 个人学习经历
  4. Mahout的使用案例

1. Mahout介绍

Mahout 是基于Hadoop的机器学习和数据挖掘的一个分布式框架。Mahout用MapReduce实现了部分数据挖掘算法,解决了并行挖掘的问题。机器学习

根据”Mahout In Action”书中的介绍,Mahout实现3大类算法, 推荐(Recommendation),聚类(Clustering),分类(Classification)。分布式

下文介绍的学习路线图,将以”Mahout In Action”书中思路展张。ide

2. Mahout学习路线图

HadoopMahoutRoadmap

Mahout知识点,我已经列在图中,但愿帮助其余人更好的了解Mahout。oop

接下来,是个人学习经历,谁都没有捷径。把心踏实下来,就不那么难了。学习

3. 个人学习经历

以前,大概花了半年的时间,专门研究过Mahout,当时Mahout的资料很是少,中文资料更是仅仅几篇。直到发现了“Mahout In Action”如获至宝,开始反复地读。先不着急上手去作什么,一遍一遍地读。直到读完3遍,心理才有了一点把握。

从“推荐”算法开始,UserCF, ItemCF。 记得第一次在公司给小组讲的时候,还设计了一份问卷,我列出了10个网站,(其中6个IT大站,2个我的blog,2个社交类社区),分别让你们去投票,0-5分,0为不知道,1-5为对网站喜好程序。

问卷结果格式:

user1, website1, 5
user1, website2, 2
user1, website3, 4
user2, website3, 2
user3, website3, 5
user4, website3, 0
…..

经过这个问卷来模拟尝试Mahout的推荐模型!计算的结果对你们来讲,都是比较奇怪。为何会有这样的推荐呢。 而后,深刻Mahout源代码,看算法的实现,知道了类似度矩阵,距离算法,推荐算法,模型验证等,不一样业务要求,不一样的算法调用,对结果都是有影响的。把书中全部的的概念,关键词都整理过(惋惜当时没写博客)。整整花了3个月,天天12个小时的强度,把推荐部分完整地学下来了。

而后,应用到实际业务中。个人任务是作“职位推荐”,我只有用户浏览职位,收藏职位,申请职位的行为数据。

第一次尝试,直接套用推荐模型,但结果很是之差。
出现问题的缘由是有2点:

  • 1. 职位是有时效性的,每一个职位可能3个月就会过时:推荐结果包含了不少的过时职位。
  • 2. 大量的用户行为都是历史的,甚至是2-3年前的:推荐结果不符合用户的预期。我估计每半年用户的职位均可能有上升,因此历史行为是不能直接用于当前用户的计算。

修改方案:
1. 对用户行为数据集进行过滤,只计算最近半年内的用户行为。
2. 对结果集进行过滤,排除过时的职位。
3. 分别用不一样的算法模型计算(我记得Tanimoto的Item Base结果最好)

对于推荐结果有了大幅度的提高。故事到此就结束了!虽然我还作了更多的事情,不过这个产品因为公司结构性调整,最终没有上线。(程序员的悲哀!)

聚类模型,我把这个算法 应用在网站用户的活跃度分析。假设一个网站,注册用户1000W,天天登录的1W。咱们想了解一下,未登录的999W用户有什么特色!!用到Mahout的k-means和Canopy作聚类,假设1000W的用户可能能够划分为5个大的群体。最后咱们获得了一个结果,分享到了团队。故事又到此结束了。(实现就是这么悲哀!)

分类模型,我尝试着用Native Bayes对个人我的邮件进行垃圾分类。按机器学习的操做流程,历史数据健分词后,训练分类器,天天时时的数据经过分类器进行判断。整个自动化过程都已经完成。故事又结束了!(接受现实吧。)

其实还有一些,我争取都整理出来。

Mahout是有必定的学习门槛,并且须要跨学科的知识。只要坚持学习,没有跨不过的鸿沟!乐观努力!


转自:http://blog.fens.me/hadoop-mahout-roadmap/

相关文章
相关标签/搜索