数据挖掘之分类和预测

分类用于预测数据对象的离散类别,预测则用于预断 欺诈检测等的方面。算法

具备表明性的分类的方法 :决策树方法 贝叶斯分类方法 神经网络方法 支持向量机方法 关联分类的方法 最后 将讨论提升分类和预测期准确率的通常性的策略数据库

分类的过程通常是有两个步骤组成的 第一个步骤是模型创建阶段,目的是描述预先定义的数据类或者概念集的分类器。这一步中会使用分类算法分析已有数据来构造分类器。网络

第二步骤是使用第一步获得的分类器进行分类,从而评估分类器的预测的准确率工具

预测与分类不一样的是 对于须要预测的属性值是连续的 ,并且是有序的,分类所须要预测的属性值是无序的 丽萨的 ,学习

5.3关于分类和预测的问题--数据预处理问题和分类方法的比较和评估的标准测试

预处理:数据清理  相关分析 数据转换 (泛化或者是规范数据)对象

评估准确率的经常使用的技术:保持方法 随机子抽样  交叉验证 的方法  是基于给定数据的随机抽样的划分数据挖掘

分类的方法第一------决策树的分类神经网络

决策树分类器是很是流行的分类的方法 是能够处理高维数据的。方法

属性选择度量是指的是决策树分类器的分裂的准则  (也就是节点的分裂)选择的标准是要使得在每一个非叶子节点进行属性的测试的时候,使得被测元祖的类别的信息是最大化的,保证非叶子节点到达各后代的叶子节点的平均路径是最短的,分类的速度是最快的。

三种属性选择的度量的方法:信息增益  增益率  Gini指标

分析分类器识别不一样类元组的状况的时候的有用的工具是成为混淆矩阵,此矩阵能够用于在决策树分类中的属性选择的度量中,判断选择合适的属性进行节点的分裂

通常三种属性选择度量的方法都可以返回一个较好的结果,可是各自选择倾向不一样,信息增益倾向于多值数据,增益率克服了多值数据,可是倾向于不平衡的分裂,Gini系数指标偏向于多值属性,并且当类的数目很大时候会出现困难的。另外它还倾向于致使相等大小和相等纯度的划分,也就是说比较于倾向于一种均衡的划分

为何在大规模的数据挖掘中 决策树被普遍地应用呢?

它相对于其余分类方法有较快的学习速度

生成的决策树能可以很容易转换为简单于理解的分类规则

使用SQL语句对数据库进行访问

它与其余分类方法相比有着可比较的分类准确率。

相关文章
相关标签/搜索