.数据挖掘及工具简介

01.数据挖掘及工具简介
目标,理解数据挖掘的基本概念,术语含义
了解经常使用挖掘算法种类以及应用场景
理解数据挖掘的流程
熟悉RapidMiner工具平台界面功能组成
什么是数据挖掘
数据挖掘(从数据中发现知识)
从大量的数据中挖掘出那些使人感兴趣的隐含的史无前例的和可能的模式和知识
挖掘的不只是数据(因此数据挖掘并不是是一个精确的用词)
数据挖掘的替换词(数据库知识挖掘KDD,知识提炼,数据/模式分析。数据考古,数据捕捞,信息收货等等)
在何种数据上进行数据挖掘
数据库数据
数据仓库
事务数据
其余类型的数据
--时间相关的数据(历史记录,股票交易,时间序列,生物学序列)
--空间数据库(如地图)
--数据流(视频监控,传感器数据)
--工程设计数据(如建筑,系统部件或者集成电路)
--超文本和多媒体数据(如文本,图像,音频,视频)
--图或者网状数据(如社会和信息网络,微博传播路径)
--万维网
通常功能
--描述性的数据挖掘
--预测性的数据挖掘
一般用户并不知道在数据中挖掘出什么数据,对此咱们会在数据挖掘中应用一些经常使用的数据挖掘功能,挖掘出一些经常使用的数据模式
--概念/类描述:特征化和区分
--关联分析
--分类和预测
--聚类分析
--孤立点分析
--趋势和演变分析
概念描述:为数据的特征化和比较产生描述(当描述的概念所指的是一类对象时,也称为类描述)
--特征化:提供给定的数据集简洁汇总
例?:对AllElectronic公司的大客户(年消费额$1000以上)的特征化描述,40-50岁有固定职业,信誉良好,等等
--区分提供两个或者多个数据集的比较描述
status             birth_country    age_range   gpa    count
graduate           canada           25-30       good    90
undergraduate      canada           25-30       good    210
关联规则挖掘
从事数据库,关系数据库和其余信息存储中大量的项集之间发现有趣的频繁的模式,关联和相关性
普遍用于购物篮或事物数据分析

age (x,"30...39")^income(x,"42k...48k")=>buys(x,"computer) [sup port=20%,confidence=70%]web

分类和预测
根据训练集和类标号属性,构建模型来分类实现现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象
-好比按气候将国家分类,按照汽油消耗将汽车分类
-导出模型的表示,决策树,分类规则,神经网络
-能够用来预报某些未知的或者丢失的数字值

IF age="<=30" AND studeng="no" then buys_computer="no"
IF age="<=30" AND studeng="yes" then buys_computer="yes"
IF age="<=31...40" then buys_computer="no"
IF age=">40" AND credit_rating="excellent" then buys_computer="yes"
IF age=">30" AND credit_rating="fair" then buys_computer="no"算法

聚类分析
-将物理或抽象对象的集合分组成为一个由类似的对象组成的多个类的过程
-最大化类内的类似性和最小化类间的类似性
列入,对web日志数据进行聚类,以发现相同用户的访问模式数据库

孤立点分析
-孤立点:一些与数据的通常行为或模型不一致的孤立数据
一般孤立点被做为噪声或异常被丢弃,但在欺骗检测行为中却以经过对罕见的事件进行孤立点分析而获得的结论
应用
信用卡欺诈检测
移动电话欺诈检测
客户划分
医疗分析(异常)api

趋势和演变分析
描述行为随时间变化的对象发展趋势或规律(时序数据库)
-趋势和误差:回归分析
-序列模式匹配:周期性分析
-基于相似性的分析网络

 

 

Rapid Miner工具
官网工具 www.rapidminer.com
RapidMiner插件下载地址
http://marketplace.rapid-i.com/UpdateServeride

相关文章
相关标签/搜索