CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 经过近几年的发展,CRISP-DM 模型在各类KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data mining and knowledge discovery中 ) 在1996年,当时数据挖掘市场是年轻而不成熟的,可是这个市场显示了爆炸式的增加。三个在这方面经验丰富的公司DaimlerChrysler、SPSS、NCR发起创建一个社团,目的创建数据挖掘方法和过程的标准。在得到了EC(European Commission)的资助后,他们开始实现他们的目标。为了征集业界普遍的意见共享知识,他们建立了CRISP-DM Special Interest Group(简称为SIG)。
大概在1999年,SIG(CRISP-DM Special Interest Group)组织开发并提炼出CRISP-DM,同时在Mercedes-Benz和OHRA(保险领域)企业进行了大规模数据挖掘项目的实际试用。SIG还将CRISP-DM和商业数据挖掘工具集成起来。SIG组织目前在伦敦、纽约、布鲁塞尔已经发展到200多个成员。2000年,CRISP-DM 1.0版正式推出,应该说CRISP-DM是实际项目的经验总结和理论抽象。 CRISP-DM强调,DM不单是数据的组织或者呈现,也不只是数据分析和统计建模,而是一个从理解业务需求、寻求解决方案到接受实践检验的完整过程。ios
CRISP-DM的六个阶段工具
中文版lua
CRISP-DM 模型为一个KDD工程提供了一个完整的过程描述。一个数据挖掘项目的生命周期包含六个阶段。这六个阶段的顺序是不固定的,咱们常常须要先后调整这些阶段。这依赖每一个阶段或是阶段中特定任务的产出物是不是下一个阶段必须的输入。上图中箭头指出了最重要的和依赖度高的阶段关系。rest
上图的外圈象征数据挖掘自身的循环本质――在一个解决方案发布以后一个数据挖掘的过程才能够继续。在这个过程当中获得的知识能够触发新的,常常是更聚焦的商业问题。后续的过程能够从前一个过程获得益处。blog
最初的阶段集中在理解项目目标和从业务的角度理解需求,同时将这个知识转化为数据挖掘问题的定义和完成目标的初步计划。生命周期
数据理解阶段从初始的数据收集开始,经过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引发兴趣的子集去造成隐含信息的假设。ci
数据准备阶段包括从未处理数据中构造最终数据集的全部活动。这些数据将是模型工具的输入值。这个阶段的任务有个能执行屡次,没有任何规定的顺序。任务包括表、记录和属性的选择,以及为模型工具转换和清洗数据。开发
在这个阶段,能够选择和应用不一样的模型技术,模型参数被调整到最佳的数值。通常,有些技术能够解决一类相同的数据挖掘问题。有些技术在数据造成上有特殊要求,所以须要常常跳回到数据准备阶段。部署
到项目的这个阶段,你已经从数据分析的角度创建了一个高质量显示的模型。在开始最后部署模型以前,重要的事情是完全地评估模型,检查构造模型的步骤,确保模型能够完成业务目标。这个阶段的关键目的是肯定是否有重要业务问题没有被充分的考虑。在这个阶段结束后,一个数据挖掘结果使用的决定必须达成。数据分析
一般,模型的建立不是项目的结束。模型的做用是从数据中找到知识,得到的知识须要便于用户使用的方式从新组织和展示。根据需求,这个阶段能够产生简单的报告,或是实现一个比较复杂的、可重复的数据挖掘过程。在不少案例中,这个阶段是由客户而不是数据分析人员承担部署的工做。