这些年,在数据挖掘项目中踩的“坑”

数据挖掘项目是一个涉及的环节也比较多,并且高度依赖数据的项目。因此在其中一个过程当中遇到点坑,简直太正常不过了。
需求不明确是第一大坑。需求不明确会把后面的分析方向彻底带沟沟里面去,也容易被迫接受一些不可能完成的挖掘目标和商业目标。不过这种通常只会发生在一个公司刚开始有这个岗位的时候,随着项目的增长,后面你们广泛就知道数据挖掘的极限了,也知道数据挖掘任务所存在的风险了,便不会提出不可能完成的目标了。说一个曾经被带沟沟里去的需求。有一次接到领导说作一个需求,要找出影响用户忠诚度的关键因子,而后我吭哧吭哧的提取数要求,等数据,写分析报告,确认了几个关键因子,而后去见客户才发现人家提的是影响高端用户粘性的因子。范围都不对,大受打击。此处避坑方式,能够去接触一线客户的时候,不要退缩,必定要了解他们的真实想法,不要被口口相传后带歪了,而后白干了。
数据自己质量问题是第二大坑。大部分生产系统收集的数据都不是专门为作挖掘而作的,基本都是为直接盈利而存在的,因此也就只有直接影响到市场营销的指标最可靠。别的辅助指标,只能说质量实在通常。咱们提出的上百个指标,真正能用的有20来个就不错了。除了数据在记录的时候可能发生的错误问题,还多是数据精度/偏倚和准确率,数据不一致,数据遗漏,数据离群点,数据重复等问题。没别的避坑方式,只能是尽量多的了解系统的基础数据,搜集各方信息,在想法设法的提升数据质量的基础上发散思惟生成更多分析维度,而后尽人事知天命!
取数过程当中发生的数据问题是第三大坑。尤为记得刚毕业那年,仍是个小透明的时候。有一次作一个甲方的挖掘项目,由于次日要交付(取数周期长耽误了工期),一伙人拿着乱七八糟的数据分析到凌晨3点,结果发现一个关键ID都弄错了,致使所有数据都无法用。那种想死的心情,那种想杀人的心情。也给咱们一个血的教训,千万不要由于信任某我的或者项目时间紧而放弃认真检查数据。数据有问题就只能打回去重整,就算是时间紧也没办法。不过话说回来,原本从各个数据仓库取数就是个又杂又累的苦活,好一点的取数人员只是犯的傻逼错误少一些。有些逻辑上考虑不全是正常的。并且他们对于数据的指标含义什么的,不像咱们这么敏感,他们也是要在短期内完成任务。因此此处的避坑方式其实也很简单,那就是检查数据!检查数据!检查数据!!!
若是说前面的三大坑还算是能够填满的,那么接下来要说的超级大坑靠咱们普通小辈基本填不满的。那就是可否获得实权人物的支持。说到底,数据挖掘到如今为止,还只是个锦上添花的事业。对于广大身处各类生产问题没法自拔的一线人员和实权领导,是不会有时间和精力来作这些锦上添花的事情的。所以项目常常由于这样或那样的问题延期或者拒绝上线。总的来讲,数据挖掘的理论和技术都发展的比较成熟了。可是受现阶段采集数据和系统建设的影响,要真正达到高级应用阶段还有一段距离。如今更多的是停留在数据分析和数据可视化阶段。
作项目就是这样,克服困难完成任务才是重点。处理问题才能体现咱们的价值嘛。若是项目顺利什么问题都没有不就变成了搞科研了吗?数据分析

相关文章
相关标签/搜索