数据挖掘与机器学习的关系

本文属于转发,之后会在该文基础上,加入本身的一些想法。算法


我最近看国外的学校,把机器学习和数据发掘分开了,数据发掘主要是跟数据库打交道,学什么数据仓库,用Oracle软件。而机器学习好像是跟统计更加贴近。数据库

统计系和计算机系在数据挖掘上作的工做有很大不一样,个人感受是,统计系把统计方法的一个子集成为数据挖掘(你看大部分数据挖掘的书所讲的不过就是那数十种方法而已),计算机系作的是数据库挖掘(软件、数据库算法);网络

至于机器学习呢,我引用牛津的Ripley教授的一句玩笑:机器学习

To paraphrase provocatively, 'machine learning is statistics minus any
checking of models and assumptions'. -- Brian D. Ripley (about the
difference between machine learning and statistics)
useR! 2004, Vienna (May 2004)工具

大体感受就是,经典统计学猛推公式猛证实各类模型性质,机器学习无论这些,它的目的是预测性能更好的算法,这些模型(机器)有个特色,就是能够自我学习,提升预测性能,按字面意思应该这样解释,但实际上并不是全部的机器学习算法都有“学习”的特征的。因此,我认为你们只是在给统计学穿外套、作包装。性能

看过一篇文章认为机器学习是指那些具体算法,而数据挖掘则还包括创建和维护数据库,数据清洗,数据可视化以及结果的使用,要综合使用到数据库、人机交互、统计分析和机器学习的技术。学习

机器学习和数据挖掘以及统计之间的关系表面上很像,可是也有很是大的区别优化

类似点在于:都是数据分析的工具,三个领域内都有办法用来分析同一数据,基本原理都很浅显。设计

不一样点在于:orm

统计对模型的要求比较苛刻,如谢所引,必定要对模型的各类性质,好比大样本,小样本,是否无偏,有多大的variance,是否达到c-r bound,是否一致,最后最好还要有model checking. 机器学习不多关心模型在大样本的状况下如何,也不关心estimator的传统的性质--这也多是由于他们的模型太过复杂,没法从数学上证实,这也从一个侧面反映了为何normal distribution在统计中的用处如此之大(有了它,不少模型的性质的研究就便的容易了),也有多是由于他们通常都用在数据量大的地方--可是机器学习却挺关心另外一个东西--error,包括empirical error and structural error。举个简单的例子,咱们眼看着神经网络和支持向量机这两种网络模型很流行,很容易懂,颇有用,可是不少人殊不知道它们来自何处,为何能具备对普遍的数据拥有普遍的用途,为何精度会很高?--背后的缘由很简单,它们两分别优化的是这两种error。而机器学习正是着眼于研究这两种error,经过这两种error的研究垮身为一种具备很浓数学味道的学科--用了大量的分析学--而这一点也是它与数据挖掘的本质区别--数据挖掘只须要设计一张鱼网(算法),在大量的数据中网到本身须要的模式,不少时候至关的须要运气。因此不少人都说这是渔夫的工做。

统计学习和机器学习的差异不怎么大。却是统计建模和机器学习有些差异。2001年Brieman(是这么拼的吗?)写了一篇文章,叫作statistical modeling:two cultures,介绍了之间的区别。统计建模是基于数据的几率分布的。所以统计模型中很重视推断inference,这些推断,好比假设检验,置信区间,都是基于某种分布假设的。而机器学习最近本的问题,即是要最小化预测偏差的某种度量。这两种方法对于世界的认知是不一样的。统计建模,最终的目的,是得到数据的几率分布,若是数据产生的分布已知,那么就天下大吉。统计建模认为世界能够用几率分布来逼近。而机器学习不这么认为,它不在意数据产生于什么分布,而且认为这个世界运行的方式是没法单纯用几率分布来解释的,好比神经网络。所以,它的目的,是预测的精准性。这是两种建模的方式,而归根结底,是对这个世界认知的方式。

统计学习更倾向于模型,一般会基于某种已知的模型就行计算。而机器学习更倾向于数据自己,每每会经过某些算法(决策树,聚类,支持向量机,神经网络等)来从数据自己挖掘信息。

《Encyclopedia of Machine Learning》 的观点是,统计学习是机器学习的一个子类:

Inductive Learning

Synonyms Statistical learning

Definition Inductive learning is a subclass of machine learning that
studies algorithms for learning knowledge based on statistical
regularities. The learned knowledge typically has no deductive
guarantees of correctness, though there may be statistical forms of
guarantees.

固然这个分类没什么意义,手段都在互相渗透。统计学家喜欢叫统计学习,计算机科学人士喜欢叫机器学习,即便作的内容都差很少。

相关文章
相关标签/搜索