下面介绍十种数据挖掘(Data Mining)的分析方法,以便于你们对模型的初步了解,这些都是平常挖掘中常常遇到的算法,但愿对你们有用!(甚至有数据挖掘公司,用其中的一种算法就能独步天下)算法
一、基于历史的MBR分析(Memory-Based Reasoning;MBR)网络
基于历史的MBR分析方法最主要的概念是用已知的案例(case)来预测将来案例的一些属性(attribute),一般找寻最类似的案例来作比较。并发
记忆基础推理法中有两个主要的要素,分别为距离函数(distance function)与结合函数(combination function)。距离函数的用意在找出最类似的案例;结合函数则将类似案例的属性结合起来,以供预测之用。记忆基础推理法的优势是它允许各类型态的数 据,这些数据不需服从某些假设。另外一个优势是其具有学习能力,它能藉由旧案例的学习来获取关于新案例的知识。较使人诟病的是它须要大量的历史数据,有足够 的历史数据方能作良好的预测。此外记忆基础推理法在处理上亦较为费时,不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预 测、医学诊疗、反应的归类等方面。机器学习
二、购物篮分析(Market Basket Analysis)函数
购物篮分析最主要的目的在于找出什么样的东西应该放在一块儿?商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为何买这些产品,找出相 关的联想(association)规则,企业藉由这些规则的挖掘得到利益与创建竞争优点。举例来讲,零售店可藉由此分析改变置物架上的商品排列或是设计 吸引客户的商业套餐等等。工具
购物篮分析基本运做过程包含下列三点:学习
(1)选择正确的品项:这里所指的正确乃是针对企业体而言,必需要在数以百计、千计品项中选择出真正有用的品项出来。设计
(2)经由对共同发生矩阵(co-occurrence matrix)的探讨挖掘出联想规则。事件
(3)克服实际上的限制:所选择的品项愈多,计算所耗费的资源与时间愈久(呈现指数递增),此时必须运用一些技术以下降资源与时间的损耗。ip
购物篮分析技术能够应用在下列问题上:
(1)针对信用卡购物,可以预测将来顾客可能购买什么。
(2)对于电信与金融服务业而言,经由购物篮分析可以设计不一样的服务组合以扩大利润。
(3)保险业能藉由购物篮分析侦测出可能不寻常的投保组合并做预防。
(4)对病人而言,在疗程的组合上,购物篮分析能做为是否这些疗程组合会致使并发症的判断依据。
三、决策树(Decision Trees)
决策树在解决归类与预测上有着极强的能力,它以法则的方式表达,而这些法则则以一连串的问题表示出来,经由不断询问问题最终能导出所需的结果。典型的决策 树顶端是一个树根,底部有许多的树叶,它将纪录分解成不一样的子集,每一个子集中的字段可能都包含一个简单的法则。此外,决策树可能有着不一样的外型,例如二元 树、三元树或混和的决策树型态。
四、遗传算法(Genetic Algorithm)
遗传算法学习细胞演化的过程,细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运做方式也很相似,它必须预先创建好一个模式,再经 由一连串相似产生新细胞过程的运做,利用适合函数(fitness function)决定所产生的后代是否与这个模式吻合,最后仅有最吻合的结果可以存活,这个程序一直运做直到此函数收敛到最佳解。基因算法在群集 (cluster)问题上有不错的表现,通常可用来辅助记忆基础推理法与类神经网络的应用。
五、聚类分析(Cluster Detection)
这个技术涵盖范围至关普遍,包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中之前未知的类似群体,在许许多多的分析中,刚开始都运用到群集侦测技术,以做为研究的开端。
六、链接分析(Link Analysis)
链接分析是以数学中之图形理论(graph theory)为基础,藉由记录之间的关系发展出一个模式,它是以关系为主体,由人与人、物与物或是人与物的关系发展出至关多的应用。例如电信服务业可藉 连结分析收集到顾客使用电话的时间与频率,进而推断顾客使用偏好为什么,提出有利于公司的方案。除了电信业以外,越来越多的营销业者亦利用连结分析作有利于 企业的研究。
七、OLAP分析(On-Line Analytic Processing;OLAP)
严格提及来,OLAP分析并不算特别的一个数据挖掘技术,可是透过在线分析处理工具,使用者能更清楚的了解数据所隐藏的潜在乎涵。如同一些视觉处理技术通常,透过图表或图形等方式显现,对通常人而言,感受会更友善。这样的工具亦能辅助将数据转变成信息的目标。
八、神经网络(Neural Networks)
神经网络是以重复学习的方法,将一串例子交与学习,使其概括出一足以区分的样式。若面对新的例证,神经网络便可根据其过去学习的成果概括后,推导出新的结果,乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式,其学习效果十分正确并可作预测功能。
九、判别分析(Discriminant Analysis)
当所遭遇问题它的因变量为定性(categorical),而自变量(预测变量)为定量(metric)时,判别分析为一很是适当之技术,一般应用在解决 分类的问题上面。若因变量由两个群体所构成,称之为双群体 —判别分析 (Two-Group Discriminant Analysis);若由多个群体构成,则称之为多元判别分析(Multiple Discriminant Analysis;MDA)。
(1) 找出预测变量的线性组合,使组间变异相对于组内变异的比值为最大,而每个线性组合与先前已经得到的线性组合均不相关。
(2) 检定各组的重心是否有差别。
(3) 找出哪些预测变量具备最大的区别能力。
(4) 根据新受试者的预测变量数值,将该受试者指派到某一群体。
十、罗吉斯回归分析(Logistic Analysis)
当判别分析中群体不符合正态分布假设时,罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并不是预测事件(event)是否发生,而是预测该事件的机 率。它将自变量与因变量的关系假定是S行的形状,当自变量很小时,机率值接近为零;当自变量值慢慢增长时,机率值沿着曲线增长,增长到必定程度时,曲线协 率开始减少,故机率值介于0与1之间。