数据来源:Top 15 Best Free Data Mining Tools: The Most Comprehensive List — Software Testing Helphtml
Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),同时weka也是新西兰的一种鸟名,而Weka的主要开发者来自新西兰。Weka做为一个公开的数据挖掘工做平台,集合了大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理,分类,回归、聚类、关联规则以及在新的交互式界面上的可视化。若是想本身实现数据挖掘算法的话,能够参考Weka的接口文档。在Weka中能够方便地集成本身的算法或者借鉴它的方法本身实现可视化工具。node
(1)打开GUI,点击Explorer按钮,此时会出现Explorer界面:算法
(2)点击Open,选择data文件下的任意一个数据集,例如 weather.nominal.arff 数据集,这里面记录的是一些天气数据:shell
(3)此时能够在栏目上选择不一样的算法(数据集不支持的算法会变暗)。选中可使用的算法,再点击Start,就能够在右侧的output中看到计算结果:数据库
(4)固然你也能够自定义数据集,用Weka进行分析测试,十分方便。apache
(5)这只是Weka的基本功能,要想使用其它功能还须要深刻了解编程
优势api
缺点网络
KNIME (Konstanz Information Miner) 是一个用户友好,智能的,并有丰演的开源的数据集成,数据处理,数据分析和数据勘探平台。它给了用户有能力以可视化的方式建立数据流或数据通道,可选择性地运行一些或所有的分析步骤,并之后面研究结果,模型 以及 可交互的视图。 KNIME 由Java写成,其基于 Eclipse 并经过插件的方式来提供更多的功能。经过以插件的文件,用户能够为文件,图片,和时间序列加入处理模块,并能够集成到其它各类各样的开源项目中,好比:R 语言,Weka, Chemistry Development Kit, 和 LibSVM。机器学习
(1)采用彻底图型化的操做方式,如下为KNIME的主要操做界面:
(2)支持各种方式的数据载入,包括文件、数据库等
(3)支持各种数据处理方式,包括按列(如分拆、合并等)、按行(过滤、变形)、矩阵(转置)和PMML(字段投影、一对多、多对1、正态化、反正态化等)
(4)支持各种数据视图,如点图、直方图、饼图、分布图
(5)支持假设检验和回归方法
(6)支持决策树、贝叶斯、聚类、规则推导、神经网络等挖掘方法
(7)支持流程控制
优势
缺点
Apache Mahout 是 Apache Software Foundation (ASF) 开发的一个全新的开源项目,其主要目标是建立一些可伸缩的机器学习算法,供开发人员在 Apache 在许可下无偿使用。该项目已经发展到了它的最二个年头,目前只有一个公共发行版。Mahout 包含许多实现,包括集群、分类、CP 和进化程序。此外,经过使用 Apache Hadoop 库,Mahout 能够有效地扩展到云中。
Mahout 项目是由 Apache Lucene(开源搜索)社区中对机器学习感兴趣的一些成员发起的,他们但愿创建一个可靠、文档翔实、可伸缩的项目,在其中实现一些常见的用于集群和分类的机器学习算法。该社区最初基于 Ng et al. 的文章 “Map-Reduce for Machine Learning on Multicore”,但此后在发展中又并入了更多普遍的机器学习方法。Mahout 的目标还包括:
Apache Mahout 运行环境包括
Apache Mahout Samsara 算法包括
(1)下载并解压Mahout
http://archive.apache.org/dist/mahout/
tar -zxvf mahout-distribution-0.9.tar.gz
(2)配置环境变量
# set mahout environment
export MAHOUT_HOME=/mnt/jediael/mahout/mahout-distribution-0.9
export MAHOUT_CONF_DIR=$MAHOUT_HOME/conf
export PATH=$MAHOUT_HOME/conf:$MAHOUT_HOME/bin:$PATH
(3)安装mahout
[jediael@master mahout-distribution-0.9]$ pwd
/mnt/jediael/mahout/mahout-distribution-0.9
[jediael@master mahout-distribution-0.9]$ mvn install
(4)验证Mahout是否安装成功
执行命令mahout。若列出一些算法,则成功:
(1)启动Hadoop
(2)下载测试数据
http://archive.ics.uci.edu/ml/databases/synthetic_control/连接中的synthetic_control.data
或者百度一下也很容易找到这个示例数据。
(3)上传测试数据
hadoop fs -put synthetic_control.data testdata
(4)使用Mahout中的kmeans聚类算法,执行命令:
mahout -core org.apache.mahout.clustering.syntheticcontrol.kmeans.Job
花费9分钟左右完成聚类 。
(5)查看聚类结果
执行hadoop fs -ls /user/root/output,查看聚类结果。
优势
缺点
Top 15 Best Free Data Mining Tools: The Most Comprehensive List — Software Testing Help
Weka:一个开源的机器学习和数据挖掘软件 - 资源 - 伯乐在线
数据挖掘RapidMiner工具使用----产品介绍与安装过程 - CSDN博客
大数据-机器学习-Apache Mahout-初级 - 简书
Apache Mahout:经典机器学习算法库 - 资源 - 伯乐在线
Mahout学习之Mahout简介、安装、配置、入门程序测试 | IT瘾