视频地址:https://pan.baidu.com/s/1b25yNG算法
机器学习比赛入门条件网络
1.过的去的code能力:Leetcode平台机器学习
leetcode平台能够帮助咱们提升基本的算法实现能力,好比写一个冒泡排序方法,写出来的代码简洁高效ide
2.参与比赛:Data Fountain,Kaggle,biendata,Data castlepost
常常发布一些比赛,能够挑一些感兴趣的参加学习
3.关注公众号:阅读代码(高手的分享)或者论文; 推荐两个@Datacatsle@爱可可测试
4.朋友和圈子(大腿),各类群大数据
机器学习比赛流程编码
这里推荐的网址实际上是一个博主的博客:http://blog.csdn.net/sinat_22594309/article/details/68951145idea
在这个博主的博客中谈到了不少有关于机器学习的经验,加关注,之后能够读
1.特征工程这个地方就是数据分析能力,有些人其实就是能够可以很好的将数据变化获得的新的特征,好比说将数据从低维空间映射到核空间或者高维空间就能够将本来没法分类的数据分开,这就是很好的新特征,咱们不能把全部的数据多怼到模型上,好比神经网络仍是随机森林,由于这些数据有可能量很大,或者很复杂,模型很难直接吃下这些数据获得很好的结果,因此须要咱们先进行特征工程这一步,构造出合适的特征喂给咱们的模型,从而获得更好的结果,这个就是很考验想法的一个环节,每拿到一个题目,你能根据场景分析到什么样的idea能够很好的构造特征解决这个问题。有的人光是考规则怼就能拿到很好的数据竞赛成绩 好比天池比赛的规则大神 桑榆 天音。总之,特征工程是核心竞争力,有经验的人讲数据进行log对数变化啊这种
2.模型选用:大数据比赛中经常使用的模型就是各类nn模型(cnn,rnn),随机森林,boost,等等
3.模型融合,就是利用迭代,boosting的方式训练模型,这种就是真的在比赛中才会用到的技巧,一点都不学术
机器学习比赛进阶
我的学习经历
我的比赛分享
在分析数据的时候,你以为本身是有什么想法可以让你在这个比赛中脱颖而出的,好比在这个比赛中,经纬度数据的处理就很关键,帮助博主bird在比赛中去的关键性的胜利。首先经纬度是一个二维的数据,他们合在一块儿表示一个位置,分开来是没有太大意义的,所以只有将经度和纬度耦合在一块儿成为一个特征,才可以提供有意义的信息。直接将两位数据扔给模型,模型是很难去吃透这个数据的
测试集与训练集同分布的意思是:在官方没有提供测试集的状况下,能够本身经过训练集构造线下测试集,二者同分布。同分布很重要,由于咱们的数据都是统计数据,并且通常就算是大赛提供的 测试集也是跟训练集同分布的。
关于DL embedding搜索到的一些资料:、
(感受嵌入层能够必定程度的下降特征工程的重要性?)
http://imgtec.eetrend.com/blog/10255(含有代码,解释,很是好的博客)
https://zhuanlan.zhihu.com/p/24252690
https://juejin.im/post/599183c6f265da3e2e5717d2
经过可视化,发现类似的地点自动聚类在一块儿,说明博主利用geohash编码将经纬度划分为小方块的作法是正确的,将数据可视化是一种很是重要且好用的手段,让咱们知道模型往哪一个方向走
最后一些话:
还有在这个比赛中,官方提供的最后的评价指标是MAPE(平均绝对 百分偏差)可是这个做为评价直指标是不合理的其实,由于它只是一个相对值,
因此最后博主重写了MSE做为评价指标
准确率,召回率,F1 值、ROC,AUC、mse,mape评价指标:http://blog.csdn.net/a819825294/article/details/51699211