前两天看到群里有人问,什么是数据挖掘,如今就数据挖掘的概念作一下分析,而且尽可能用大白话说一下数据挖掘究竟是个啥东西,为啥大数据来了数据挖掘也火了(其实原来就挺火)。算法
先看一上概念:数据库
数据挖掘(英语:Data mining),又译为资料探勘、数据采矿。它是数据库知识发现(英语:Knowledge-Discovery in Databases,简称:KDD)中的一个步骤。数据挖掘通常是指从大量的数据中经过算法搜索隐藏于其中信息的过程。数据挖掘一般与计算机科学有关,并经过统计、在线分析处理、情报检索、机器学习、专家系统(依靠过去的经验法则)和模式识别等诸多方法来实现上述目标。网络
数据挖掘说的直白些就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。机器学习
价值包括如下几类:学习
一、相关性大数据
相关性分析是指对两个或多个具有相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。相关性的元素之间须要存在必定的联系或者几率才能够进行相关性分析。相关性不等于因果性,也不是简单的个性化,相关性所涵盖的范围和领域几乎覆盖了咱们所见到的方方面面,相关性在不一样的学科里面的定义也有很大的差别。用于肯定数据之间的变化状况,即其中一个属性或几个属性变化的是否会对其它属性形成影响,影响有多大。对象
下图就是相关性的示例:blog
二、趋势get
是指将实际达到的结果,与不一样时期财务报表中同类指标的历史数据进行比较 ,从而肯定财务情况,经营成果和现金流量的变化趋势和变化规律的一种分析方法。能够经过拆线图预测数据的走向和趋势,也能够经过环比、同比的方式对比较的结果进行说明。it
以下图所示:
三、特征
看具体分析的内容是什么,好比互联网类,就是用户画像这类的需求,根据不一样的用户给用户群打相应的标签。
下图是一个示意图:
数据挖掘的结果通常有几种展示形式:
一、表格
最先的一种展示方式,交叉表的展现,以下图:
二、图表
相比于图表更具展示力,让人很直观的就能看出数据的总体状况,以下图:
三、决策树
套用俗语,决策树分类的思想相似于找对象。现想象一个女孩的母亲要给这个女孩介绍男友,因而有了下面的对话:
女儿:多大年纪了?
母亲:26。
女儿:长的帅不帅?
母亲:挺帅的。
女儿:收入高不?
母亲:不算很高,中等状况。
女儿:是公务员不?
母亲:是,在税务局上班呢。
女儿:那好,我去见见。
这个女孩的决策过程就是典型的分类树决策。至关于经过年龄、长相、收入和是否公务员对将男人分为两个类别:见和不见。假设这个女孩对男人的要求是:30岁如下、长相中等以上而且是高收入者或中等以上收入的公务员,那么这个能够用下图表示女孩的决策逻辑:
数据挖掘是计算机学科中的一个交叉研究领域,其研究方法与多个其余科学紧密相连,如:统计、机器学习、专家系统、信息检索、社会网络、天然语言处理和模式识别等等。
这里简单的介绍了一下数据挖掘的概念以及数据挖掘的展示形式和数据挖掘到底能作一些什么,在后面会继续深和的介绍,以期和你们一块儿提升。