R语言是一个自由、免费、源代码开放的软件,它是一个用于统计计算和统计制图的优秀工具。这里的统计计算能够是数据分析、建模或是数据挖掘等,经过无数大牛提供的软件包,能够帮咱们轻松实现算法的实施。算法
一些读者以为R语言零碎的东西太多了,没法记住那么多函数和功能,因而就问R语言有没有一种相似于SAS之EM或SPSS之Modeler的界面化操做。很幸运,Graham等人特意为“偷懒”的分析师写了rattle包,经过该包就能够实现界面化操做的数据分析、数据挖掘流程。下面就跟你们详细介绍一些这款免费的工具:数据库
上图红色区域就是数据分析与挖掘的流程,包括:数据源(Data)-->数据探索与检验(Explore、Test)-->数据变换(Transform)-->数据挖掘(Cluster、Associate、Model)-->模型评估(Evaluate)。网络
首先,你会经历“一劳永逸”的过程:安装rattle包函数
不瞒您说,我首次在本身的64位Win7系统中安装rattle包时花费了很多功夫。当你install.packages('rattle')时,以为很是轻松就下载好了,可是进入library(rattle)并输入rattle()时它会报告各类.dll文件不存在。若是您决定要试试,就下载缺失的dll文件到您的电脑里。工具
其次,咱们来介绍一下rattle数据挖掘操做界面都有哪些东西:编码
一切数据分析与挖掘都起源于数据,故第一步就是往rattle中导入数据源,数据源能够是外部数据源,如txt文件、csv文件、Excel文件等;也能够是数据库数据,经过ODBC链接诸如SQL Server、MySQL等数据库;也能够是当前R空间下的数据集;也能够是外部R数据集文件、还能够是R包自带的数据集。lua
有了数据后,须要进行数据探索,如汇总(Summary)、分布(Distributions)、相关性分析(Correlation)、主成分分析(Principal Components)、t检验、F检验、K-S正态性检验、Wilcoxon检验等3d
当数据存在缺失或须要重新编码、标准化时,就须要这里的数据变换了orm
当数据清洗干净或对数据有了基本了解后,就要进入数据挖掘过程,rattle工具提供了经常使用的数据挖掘算法,如:K-means聚类、层次聚类、关联规则、决策树、随机森林、支持向量机、线性回归、Logistic回归、神经网络等blog
当模型选定,并进入模型运算后,须要对模型进行评估,选择比较理想的模型用着后期数据的部署。有关模型评估,rattle提供了混淆矩阵、风险矩阵、成本曲线、Lift曲线、ROC曲线等方法。
最后,咱们就用这个rattle作一个实战,数据集就使用C50包中的churnTrain,该数据集是德国某电信公司客户是否流失的数据集。
选择好数据集后,点击“执行”,默认数据集将分为三个子集,即训练集占70%、训练集和检验集各占15%,最后将指定哪些变量为解释变量和被解释变量,若有不须要的变量,则选为“Ignore”
2)数据探索
选择Summary单选、并选择Summary、Describe、Basic、Kurtosis等复选框后,看看都有哪些返回结果:
Summary结果
Discribe结果
Basic基本统计量结果
还有不少数据探索的内容,这里就不一一说明了,但愿读者能自行执行,并了解数据的大体状况。
判断客户是否流失,是一种分类问题,下面综合考虑使用Logistic回归、决策树、随机森林三种分类算法。
简单看一下这三种算法的结果:
Logistic回归的结果:
决策树的结果:
随机森林的结果:
这里咱们使用混淆矩阵和ROC曲线两种评估模型的方法,具体结果见下图的展现:
结果显示,三个模型的优劣顺序为:随机森林、决策树和Logistic回归
本文只是带你们进入rattle这个界面化操做的数据分析和挖掘工具,更多探索和玩法还须要你们进一步研究。欢迎各位交流与探讨有关数据分析的问题。