ijcai2017赛后总结


 

比赛的过程大体分为:数据分析与探索;尝试生成本身所须要的数据;提取特征创建baseline;在baseline的基础上进一步建模或者使用规则。并发

 

数据分析与探索——你能想到的别人也会想到,只有你发现的别人才不容易发现!数据分析与探索是极其重要的,在整个数据挖掘过程当中应该占据最多的时间,只有花时间作得足够细才会有好结果。这个过程是个统计过程,也最为繁琐。作好数据分析,有如下几点须要格外注意:别骗本身了,只有数据不会说谎——必定不要主观臆断而放弃对某一个特征、类别的深刻挖掘。在作统计时要作到足够精细,例如在本次比赛中,咱们都想到了要对双11进行修正,并且能够说100%的人都想到了,但真正作好的实在是少之又少。大概错误有如下两类:一是以为双11只是线上、淘宝、天猫等等的活动,所以与口碑流量应该无关(注意是应该,我相信绝大多数人都是或者有过这种想法),所以对这方面只是浅尝辄止,例如随便将当天销量向上拉1%,显然效果不会明显,甚至降低,因而放弃等等。二是虽然对这个节日有关注,可是工做作的太粗糙。例如仅仅统计了2015年双11全部店铺销量变化状况,而后在采起上述拉升方法。很明显,效果很通常。然而事实上,双11不只仅是打折促销,更多的是年轻人们的光棍节。但即使没有想到这一点,也不能作这样粗糙的统计而就此完事。若进一步对每一个类别(其实并不是是每一个类别,由于只有少数类别才具备较多的店铺)的在2015年双11销量进行分析。能够发现西餐厅(约250家)在双11会上涨约14%,线上反馈也证实了2016年也是如此。和个人臆想简直是天差地别!优化

baseline的创建——在数据挖掘比赛中创建一个好的bsaline是极其重要的,baseline不必定要可以彻底解决问题,他可能只是解决问题的第一个步骤。所以baseline并非能够随意创建的。在我看来一个好的baseline至少得知足一下两个条件:1.正确性,所谓正确性指的是你对baseline结果的自信程度,好的baseline在数据预处理不变的条件下,你要能自信的说,这个baseline的结果是合情合理又正确的。在这个baseline正确的基础上才有后文。2.基础性,这个基础性主要是指baseline上衍生出来的东西要多,这样后面的提高空间才会大。spa

 

并发处理——多个任务之间减小干扰。在baseline创建以后的下一步工做中不要使用太多baseline使用过的数据。这样两个任务之间的干扰没那么多,能够同时优化baseline和创建下一步工做。不然后期容易陷入线上不动,线下也不动。想优化baseline又怕对后面形成影响。blog

 

线上反馈——结合线上反馈,手动处理一些样本是必要的。在缺失值多,外部扰动大,一些预测会很是困难。这时候结合线上反馈是颇有必要的。数据分析

相关文章
相关标签/搜索