数据挖掘中分类和聚类的区别

时间 2019-11-30

标签数据挖掘分类区别繁體版

原文原文链接

1.分类javascript

分类是数据挖掘中的一项很是重要的任务，利用分类技术能够从数据集中提取描述数据类的一个函数或模型（也常称为分类器），并把数据集中的每一个对象归结到某个已知的对象类中。从机器学习的观点，分类技术是一种有指导的学习，即每一个训练样本的数据对象已经有类标识，经过学习能够造成表达数据对象与类标识间对应的知识。从这个意义上说，数据挖掘的目标就是根据样本数据造成的类知识并对源数据进行分类，进而也能够预测将来数据的归类。分类具备普遍的应用，例如医疗诊断、信用卡的信用分级、图像模式识别。java

分类挖掘所获的分类模型能够采用多种形式加以描述输出。其中主要的表示方法有：分类规则、决策树、数学公式和神经网络。另外，最近又兴起了一种新的方法—粗糙集，其知识表示采用产生式规则。算法

　　分类(classification )是这样的过程：它找出描述并区分数据类或概念的模型(或函数)，以便可以使用模型预测类标记未知的对象类。分类分析在数据挖掘中是一项比较重要的任务, 目前在商业上应用最多。分类的目的是学会一个分类函数或分类模型(也经常称做分类器),该模型能把数据库中的数据项映射到给定类别中的某一个类中。
　　分类和回归均可用于预测，二者的目的都是从历史数据纪录中自动推导出对给定数据的推广描述，从而能对将来数据进行预测。与回归不一样的是，分类的输出是离散的类别值，而回归的输出是连续数值。两者常表现为决策树的形式，根据数据值从树根开始搜索，沿着数据知足的分支往上走，走到树叶就能肯定类别。
　　要构造分类器，须要有一个训练样本数据集做为输入。训练集由一组数据库记录或元组构成，每一个元组是一个由有关字段(又称属性或特征)值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：(v1,v2,...,vn; c)；其中vi表示字段值，c表示类别。分类器的构造方法有统计方法、机器学习方法、神经网络方法等等。
　　不一样的分类器有不一样的特色。有三种分类器评价或比较尺度：1)预测准确度；2)计算复杂度；3)模型描述的简洁度。预测准确度是用得最多的一种比较尺度，特别是对于预测型分类任务。计算复杂度依赖于具体的实现细节和硬件环境，在数据挖掘中，因为操做对象是巨量的数据，所以空间和时间的复杂度问题将是很是重要的一个环节。对于描述型的分类任务，模型描述越简洁越受欢迎。
　　另外要注意的是，分类的效果通常和数据的特色有关，有的数据噪声大，有的有空缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的而有的是连续值或混合式的。目前广泛认为不存在某种方法能适合于各类特色的数据

数据库

2.聚类网络

　　与分类技术不一样，在机器学习中，聚类是一种无指导学习。也就是说，聚类是在预先不知道欲划分类的状况下，根据信息类似度原则进行信息聚类的一种方法。聚类的目的是使得属于同类别的对象之间的差异尽量的小，而不一样类别上的对象的差异尽量的大。所以，聚类的意义就在于将观察到的内容组织成类分层结构，把相似的事物组织在一块儿。经过聚类，人们可以识别密集的和稀疏的区域，于是发现全局的分布模式，以及数据属性之间的有趣的关系。机器学习

　数据聚类分析是一个正在蓬勃发展的领域。聚类技术主要是以统计方法、机器学习、神经网络等方法为基础。比较有表明性的聚类技术是基于几何距离的聚类方法，如欧氏距离、曼哈坦距离、明考斯基距离等。聚类分析普遍应用于商业、生物、地理、网络服务等多种领域。函数

　　聚类(clustering)是指根据“物以类聚”的原理，将自己没有类别的样本汇集成不一样的组，这样的一组数据对象的集合叫作簇，而且对每个这样的簇进行描述的过程。它的目的是使得属于同一个簇的样本之间应该彼此类似，而不一样簇的样本应该足够不类似。与分类规则不一样，进行聚类前并不知道将要划分红几个组和什么样的组，也不知道根据哪些空间区分规则来定义组。其目的旨在发现空间实体的属性间的函数关系，挖掘的知识用以属性名为变量的数学方程来表示。
　　当前，聚类技术正在蓬勃发展，涉及范围包括数据挖掘、统计学、机器学习、空间数据库技术、生物学以及市场营销等领域，聚类分析已经成为数据挖掘研究领域中一个很是活跃的研究课题。常见的聚类算法包括：K-均值聚类算法、K-中心点聚类算法、CLARANS、BIRCH、CLIQUE、DBSCAN等。学习