利用Mahout实如今Hadoop上运行K-Means算法

时间 2019-11-17

标签利用 mahout 如今 hadoop 运行 means 算法栏目 Hadoop 繁體版

原文原文链接

K-Means算法是基于分划分的最基本的聚类算法，是学习机器学习、数据挖掘等技术的最基本的知识，因此掌握其运行原理是很重要的。 git

转载请注明出处： http://hanlaiming.freetzi.com/?p=144 github

1、介绍Mahout

Mahout是Apache下的开源机器学习软件包，目前实现的机器学习算法主要包含有协同过滤/推荐引擎，聚类和分类三个部分。Mahout从设计开始就旨在创建可扩展的机器学习软件包，用于处理大数据机器学习的问题，当你正在研究的数据量大到不能在一台机器上运行时，就能够选择使用Mahout，让你的数据在Hadoop集群的进行分析。Mahout某些部分的实现直接建立在Hadoop之上，这就使得其具备进行大数据处理的能力，也是Mahout最大的优点所在。相比较于Weka，RapidMiner等图形化的机器学习软件，Mahout只提供机器学习的程序包（library），不提供用户图形界面，而且Mahout并不包含全部的机器学习算法实现，这一点能够算得上是她的一个劣势，但前面提到过Mahout并非“又一个机器学习软件”，而是要成为一个“可扩展的用于处理大数据的机器学习软件”，可是我相信会有愈来愈多的机器学习算法会在Mahout上面实现。[1] 算法

2、介绍K-Means

https://cwiki.apache.org/confluence/display/MAHOUT/K-Means+Clustering#，这是Apache官网上的算法描述，简单来讲就是基于划分的聚类算法，把n个对象分为k个簇，以使簇内具备较高的类似度。类似度的计算根据一个簇中对象的平均值来进行。[2] apache

3、在Hadoop上实现运行

1，实验环境

①hadoop集群环境：1.2.1 一个Master，两个Slaves，在开始运行kmeans时启动hadoop ubuntu

②操做系统：全部机器的系统均为ubuntu12.04 api

③Mahout版本：采用的是0.5版 bash

2，数据准备

数据采用的是http://archive.ics.uci.edu/ml/databases/synthetic_control/synthetic_control.data，这是网上提供的一个比较不错是数据源。而后用指令 hadoop fs -put /home/hadoop/Desktop/data testdata，将在我桌面的文件data上传到HDFS的testdata目录下，这里为何是testdata，我也正在思考，由于我原本是上传到input里，可是运行时提示could not find ....user/testdata之类的，因此现改成了testdata。机器学习

3，运行

①配置Mahout环境：在Apache官网下载Mahout的版本，我选择的是0.5，下载地址：https://cwiki.apache.org/confluence/display/MAHOUT/Downloads。而后解压到你指定的目录，将此目录路径写入/etc/profile，添加以下语句：工具

export MAHOUT_HOME=/home/hadoop/hadoop-1.2.1/mahout-distribution-0.5
export HADOOP_CONF_DIR=/home/hadoop/hadoop-1.2.1/conf
export PATH=$PATH:/home/hadoop/hadoop-1.2.1/bin:$MAHOUT_HOME/bin

而后执行 source /etc/profile。在mahout目录下执行bin/mahout命令，检测系统是否安装成功。如图： oop

注：此处修改环境变量有些网上提示是/etc/bash.bashrc，我也试着修改过，可是发如今我这里使环境变量生效的是profile。

②运行Mahout里自带的K-Means算法，bin/mahout org.apache.mahout.clustering.syntheticcontrol.kmeans.Job，这里启动后遇到了一点问题，提示Could not find math.vector，后来参考这篇http://jerrylead.iteye.com/blog/1188929日志解决。

4，结果

在个人环境下运行5分钟左右，最后生成一个文件，如图

4、总结

Mahout是一个很强大的数据挖掘工具，须要进行更深层的了解。

5、参考文献

[1].Mahout与聚类分析 http://yoyzhou.github.io/blog/2013/05/26/clustering-with-mahout/

[2]. http://zh.wikipedia.org/zh-cn/K%E5%B9%B3%E5%9D%87%E7%AE%97%E6%B3%95