CRoss IndustryStandard Process- for Data Mining 跨行业数据挖掘标准流程(中)

4、数据准备算法

在对数据进行充分理解的基础上,咱们就要生成可以知足数据挖掘须要的数据宽表。在此阶段,咱们须要集中精力在数据准备上,每每一个项目超过60%的时间都放在数据理解和数据准备上面。你觉得剩下的40%是建模分析?其实10%才是建模分析,剩下的30%都是用来吐槽数据质量问题的。由于在上面已经简单讨论了缺失值和离群值问题。通常除了这些,咱们还须要:学习

(1)处理无效值:如未知,如年龄显示100,通常采起与缺失值相似的方式;测试

(2)修改不合规字段:如某些记录后面出现空格:如套餐198   ;优化

(3)编码方式/统计口径不一致的问题:如统计方式,统计范围,统计单位等。编码

(4)数据的转换(数据的重构和整合)生命周期

值得注意的是这是一个须要不断调整优化的过程,举个例子有可能原始的变量个数有50个;经过咱们对变量的转换和衍生,生成了100个变量;最后经过对业务的理解,模型的测试,从100个变量当中选择新的50个变量进行分析。数据挖掘

经常使用数据转换方式:基础

(1)单变量之间的转换变量

   a)连续变量转为连续变量         b)连续变量转为离散变量重构

  c)离散变量转换为连续变量       d)离散变量转化为离散变量

(2)变量之间的转换

  a)汇总型指标               b)强度相对指标           c)比例相对指标

  d)时间对比指标             e)趋势型指标             f)波动型指标

一、单变量自身转换:

(1)连续变量转为为连续变量:如出于计量和比较进行转换,如转换单位:通话小时数->通话分钟数的;出于对数据分布修订的转换,如:对数据进行取对数;为了使不一样量纲或者不一样数量级的数据可以很好地进行对比,对数据标准化:(原始值-平均值)/标准差,通常在聚类的时候,对数据先进行标准化也是一种必要手段;

(2)连续变量转换为离散变量:通常这种转换会损失必定的信息,可是出于业务更好理解的考虑或者算法的须要,采起的措施通常是利用分箱处理,通常能够选择等距离分箱或者等数量分箱,也有利用有监督的方法进行分箱的;

(3)离散变量转换为连续变量:这种方式比较少用,通常只是一些有序的分类变量转换为1,2,3,4;

(4)离散变量转换为离散变量:通常用于一个变量当中包含有多个类别,对变量采起合并,例如运营商信息的省份字段,咱们能够把省份概括为东部,西部,南部等,也能够按照经济水平进行区分。

二、变量之间的衍生

(1)汇总型指标:这个比较常见,例如咱们统计一个客户在过去一年当中的消费/通话行为,例如计算一年内通话时长的总和,平均值,最大值,最小值,1/4分位数,3/4分位数,标准差,经过这些指标,咱们但愿总体判断通话情况;值得注意的是,这里面的指标咱们通常只会选择少许假如模型,由于这些指标间自己也有比较强的相关关系,极可能致使多重共线性的问题。

(2)强度相对指标:如平均通话时长,就是用总的通话时间/通话次数所得,咱们但愿用这个指标侧面了解每一个客户的通话习惯。

(3)比例相对指标:就是直接反映整体各部分的比例关系,这在客户行为研究用得特别的多,例如咱们分析一个客户在闲时的通话时长占整体的比例,在周末通话时长占整体的比例等等,通常这种指标用于区分客户群体比较有用。

(4)时间对比指标:通常若是咱们的原始数据包含几年的数据记录,咱们就能够同比(16年5月通话时长/15年5月通话时长)或者环比(16年5月对于16年4月),这种指标在专门的时序分析中用得比较多,相对而言在其余方面比较少。

(5)趋势型指标:在客户研究当中,尤为是研究客户价值/客户生命周期这两个主题当中,趋势类指标特别重要,例如咱们但愿了解每一个客户的通话时长/交易金额从历史到如今,是一个向上的趋势,仍是一个向下的趋势。这种指标很是有助于咱们判断客户的生命周期价值是在提高仍是存在潜在的流失可能,由于会借助回归分析方法(月份为自变量,每个月通话时长/话费为因变量),最后得回归系数做为该指标。

(6)波动指标:通常咱们能够用标准差或变异系数来反映。

5、创建模型

创建统计学习模型,简单是指利用一个(或多个)输入变量(通常称为为自变量,预测变量)经过拟合适当的关系式来预测输出变量(也称因变量,响应变量)的方法。

通常在商业实践当中,咱们能够把统计/挖掘任务简单划分为预测和控制。预测仍是控制,这个很重要。

 

在预测任务中,咱们但愿模型尽量地精确,相反预测模型f的形式多是一个黑箱模型(即模型的自己咱们不能很好的解释或者并不清楚,咱们更加关心模型中的输入和输出,并不试图考察其内部结构),只要可以提升咱们的预测精度咱们就承认达到目的了。

在这里,预测结果当然重要,可是咱们也十分关心模型的形式具体是怎么样,或者借助统计挖掘模型帮助咱们生成了怎样的判别规则。

例如:在银行业,咱们但愿经过客户的我的信用信息来评价我的的借贷风险,这就要求咱们不但可以回答这个客户的风险是高是低,还要求咱们回答哪些因素对客户风险高低有直接做用,每一个因素的影响程度有多大。

相关文章
相关标签/搜索