文中部份内容来自书籍和网络,部份内容为本身的理解。但愿借助笔记的方式可以加深本身对该部分知识的掌握,也做为往后回顾的记录。算法
不少小伙伴听到数据挖掘这四个字的时候很困惑,虽然字面意思你们都知道,可是数据挖掘究竟是个什么东西,须要用到什么技术来实现却并不了解,下面咱们就来剖析一下,到底什么是数据挖掘。数据库
按照惯例,先来一个百度百科的定义:网络
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘通常是指从大量的数据中经过算法搜索隐藏于其中信息的过程。数据挖掘一般与计算机科学有关,并经过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。机器学习
根据定义能够看出,数据挖掘是一个过程结果的称谓。即主要目标是从数据中挖取隐藏的信息。挖取的过程当中会采用许多技术,包括运用一系列统计方法、模式识别、机器学习(归根结底都是统计方法啦)等等技术,来实现挖取隐藏信息的目的。函数
引用一张图来阐明数据挖掘在整个数据处理流程中的阶段和做用:学习
数据库数据
顾名思义,就是存储在数据库中的数据。这里面的数据库主要指关系型数据库。3d
数据仓库
数据仓库是从多个数据源收集汇总的一个数据存储库,跟事务型数据库的不一样点在于它是面向主题的,有必定的分类和聚合。而且分为度量值和维度值即事实表和维度表这样的区分,便于多维数据分析(OLAP)。视频
事务数据
事务数据库的每一个记录表明一个事务,就是咱们常见的业务系统,订单系统。例如京东的一次购物就有一条购物信息的记录,这就是事务。对象
其余类型的数据
除了以上类型的数据以外的其余数据,包括时间相关或序列相关的数据、地理空间的数据、文本数据以及图片和音视频等。blog
特征化与区分
数据特征化是目标数据的通常特性或特性的汇总。
数据区分是将目标类数据对象的一个特性与一个或多个对比类对象的通常特性进行比较。
频繁模式、关联和相关性
频繁模式是数据中频繁出现的模式
用于预测分析的分类与回归
分类(classification):分类规则、决策树、数学公式、神经网络等。先从数据中选出分好类的训练集,在该训练集上运用数据挖掘技术,创建分类模型,而后对没有分类的数据进行分类。这里的类是预约义好的,即个数是肯定的。
下图中,a是分类规则(IF-THEN规则), b是决策树, c是神经网络
回归(regression):创建连续值函数模型
相关分析(relevance analysis):在作分类和回归以前,先识别与分类和回归过程显著相关的属性,其余不相关的属性能够不考虑。
统计学
研究数据的收集、分析、解释和表示。运用统计模型对数据建模、使用假设检验来验证模型等。
信息检索(IR) 是搜索文档或文档中信息的科学。假定搜索的数据是无结构的,主要采用关键词。