初识数据挖掘

时间 2019-11-30

标签数据挖掘繁體版

原文原文链接

以前一直在看聚类算法，由此也就对数据挖掘这个领域颇感兴趣，恰好考完试有了时间可以好好琢磨琢磨。对于初学者而言，首先呢，对数据挖掘的一些点作以下总结：算法

1 初识数据挖掘数据库

随着社会的发展，各行各业都创建起了各自的数据库体系，如何对这些数据实现最大化利用是很值得研究的问题，由此数据挖掘技术应运而生，我的理解的数据挖掘就是从大量的数据中发现数据背后潜在的有用价值。机器学习

数据的产生和收集技术一直在不断提高，海量数据集随之增长，同时呢，高维数据也越发广泛。由此要求数据挖掘算法必须具备可伸缩性，除此也要适应高维性。工具

可想而知，数据挖掘的发展必将面临各类挑战，因此数据挖掘融合了统计学的抽样、估计和假设检验；人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论等各个领域的思想。性能

2 数据挖掘的任务学习

（1）分类搜索引擎

a. 预测任务：根据其余属性的值来预测特定属性的值；人工智能

b. 描述任务：发现数据中潜在的模式。spa

（2）主要任务对象

a. 预测建模：经常使用的有分类和回归,分类用来预测离散的目标变量，而回归用来预测连续的目标变量。预测建模能够用来预测客户对一个促销活动的反应、预测地球生态系统的扰动等等。

b. 关联分析：用有效的方式提取有用的模式。应用包括找出具备相关功能的基因组、识别用户一块儿访问的Web页面等等，好比能够根据销售数据发现顾客常常同时购买的商品。

c. 聚类分析：以类似度为基础，经过必定的方法对元素进行聚类，使得处于同簇之间元素最为类似，不一样簇元素之间的类似度差异尽量大。应用包括图像识别等，固然在搜索引擎中也有着举足轻重的地位。

d. 异常检测：发现真正的特征显著不一样于其余数据的观测值，在此必定要避免将正常的对象标注为异常点，一个好的异常检测器必须具备高检测率和低误报率。应用包括检测欺诈、疾病的不寻常模式等等。

3 数据的预处理

（1）汇集

将两个或多个对象合并为单个对象。但缺点是极可能丢失有些细节。

（2）抽样

处理全部数据的费用过高，因此采用抽样算法来压缩数据量。可是缺点是会致使信息损失，所以在抽样的过程当中肯定适当的样本容量很重要。

（3）维归约

维归约的优点以下：

. 维归约使得维度（即元素的属性）下降，使得数据挖掘的效果会更好；

. 使得模型更易理解；

. 使数据更容易可视化。

维归约经常使用线性代数技术，将数据从高维空间投影到低维空间。其中最经常使用的是主成分分析法（PCA），找到新属性（原属性的线性组合），而且保证新属性是相互正交的。奇异值分解也能够用于维归约。

（4）特征子集的选择

除去冗余或不相关的特征，进而仅使用特征的一个子集来表示。虽然看起来是会丢失一部分信息，但事实并不是如此，冗余和不相关的特征对结果并无太大的意义。

特征子集选择的标准方法有：嵌入、过滤和包装。其中过滤和包装所不一样的是评估的方法不一样，嵌入方法是与具体的算法有关。

特征选择的过程能够看做由四部分构成：子集的评估度量、控制新的特征子集产生策略、中止搜索判断和检验过程。

特征加权是特征选择的办法，是根据特征的重要性分别对不一样的特征赋予必定的权值。

（5）特征建立

根据已知的属性建立新的属性，从而能更有效的捕获到有用的信息，主要包括如下几点：

. 特征提取

.映射数据到新的空间。好比对于时间序列，经过傅里叶变换产生属性与频率有关的新数据对象；

.特征构造：当前的信息不适合数据挖掘算法时，构造有用的新特征。

（6）离散化和二元化

（7）变量转换：能够对数据进行规范化或标准化。

4 数据挖掘与机器学习以及模式识别的区别与联系

就它们的本质而言，数据挖掘重在发现，而模式识别重在认识，机器学习是方法，模式识别是目的。机器学习和模式识别均可以做为数据挖掘的工具。

机器学习指的是具体的算法，并能预测性能更好的算法。而数据挖掘则还包括创建和维护数据库、数据清洗、数据可视化以及结果的使用，同时呢，要综合运用到各领域的知识。

固然，须要了解的知识还有不少，一些简单的我在此也再也不赘余，之后继续加油学习吧~

走走停停，停很重要——

大概懂得了一些基本知识以后，是否是就能够看十大算法了呢？好期待。。。