什么是数据挖掘

时间 2019-11-08

标签什么数据挖掘繁體版

原文原文链接

1、前言

文中部份内容来自书籍和网络，部份内容为本身的理解。但愿借助笔记的方式可以加深本身对该部分知识的掌握，也做为往后回顾的记录。算法

2、基本概念

不少小伙伴听到数据挖掘这四个字的时候很困惑，虽然字面意思你们都知道，可是数据挖掘究竟是个什么东西，须要用到什么技术来实现却并不了解，下面咱们就来剖析一下，到底什么是数据挖掘。数据库

按照惯例，先来一个百度百科的定义：网络

数据挖掘（英语：Data mining），又译为资料探勘、数据采矿。它是数据库知识发现（英语：Knowledge-Discovery in Databases，简称：KDD)中的一个步骤。数据挖掘通常是指从大量的数据中经过算法搜索隐藏于其中信息的过程。数据挖掘一般与计算机科学有关，并经过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别等诸多方法来实现上述目标。机器学习

根据定义能够看出，数据挖掘是一个过程结果的称谓。即主要目标是从数据中挖取隐藏的信息。挖取的过程当中会采用许多技术，包括运用一系列统计方法、模式识别、机器学习（归根结底都是统计方法啦）等等技术，来实现挖取隐藏信息的目的。函数

引用一张图来阐明数据挖掘在整个数据处理流程中的阶段和做用：学习

3、挖掘的数据对象

数据库数据
顾名思义，就是存储在数据库中的数据。这里面的数据库主要指关系型数据库。3d
数据仓库
数据仓库是从多个数据源收集汇总的一个数据存储库，跟事务型数据库的不一样点在于它是面向主题的，有必定的分类和聚合。而且分为度量值和维度值即事实表和维度表这样的区分，便于多维数据分析（OLAP）。视频
事务数据
事务数据库的每一个记录表明一个事务，就是咱们常见的业务系统，订单系统。例如京东的一次购物就有一条购物信息的记录，这就是事务。对象
其余类型的数据
除了以上类型的数据以外的其余数据，包括时间相关或序列相关的数据、地理空间的数据、文本数据以及图片和音视频等。blog

4、挖掘的模式

特征化与区分
数据特征化是目标数据的通常特性或特性的汇总。
数据区分是将目标类数据对象的一个特性与一个或多个对比类对象的通常特性进行比较。
频繁模式、关联和相关性
频繁模式是数据中频繁出现的模式
用于预测分析的分类与回归
分类（classification）：分类规则、决策树、数学公式、神经网络等。先从数据中选出分好类的训练集，在该训练集上运用数据挖掘技术，创建分类模型，而后对没有分类的数据进行分类。这里的类是预约义好的，即个数是肯定的。
下图中，a是分类规则（IF-THEN规则）， b是决策树， c是神经网络

回归（regression）：创建连续值函数模型
相关分析（relevance analysis）：在作分类和回归以前，先识别与分类和回归过程显著相关的属性，其余不相关的属性能够不考虑。

聚类分析
聚类分析数据对象，不考虑分类。聚类和分类的区别是汇集不依赖于预先定义好的类，不须要训练集。
对象根据最大化类内类似性、最小化类间类似性的原则进行聚类或分组。
例以下图，找到具备共性的数据，而后聚类：

离群点分析
分析数据集中与数据的通常行为或模型不一致的数据对象。又称为异常挖掘。

5、数据挖掘使用的技术

统计学
研究数据的收集、分析、解释和表示。运用统计模型对数据建模、使用假设检验来验证模型等。
机器学习
1. 监督学习（supervised learning）
  基本上是分类的同义词。学习中的监督来自训练数据集中标记的实例。
2. 无监督学习（unsupervised learning）
  本质上是聚类的同义词。学习过程是无监督的，由于输入的实例没有类标记。
3. 半监督学习（semi-supervised learning）
  在学习模型时，使用标记的和未标记的实例。标记的模型用来学习类模型，未标记的实例用来进一步改进类边界。
4. 主动学习（active learning）
  让用户在学习过程当中扮演主动角色，让用户对一个可能来自未标记的实例集或由学习程序合成的实例进行标记。给定要求标记数量的约束。目的是经过主动的从用户获取知识来提升模型质量。
信息检索（IR） 是搜索文档或文档中信息的科学。假定搜索的数据是无结构的，主要采用关键词。