鞠源php
html
KDDCUP - Competition is a strong mover for Science and Engineering算法
ACM KDD是知识发现和数据挖掘领域的顶级会议,KDD CUP又是基于ACM KDD的世界级赛事。目的在于1. 探求从海量数据中挖掘出高层知识的最佳方法。2. 做为学术界和工业界沟通的桥梁(事实上KDD从97起,首先是由工业界如yahoo,美国国防部发起,参与并获奖的也是SAS,SAP等一些企业,后来学术界渐渐参与进来,好比lib-SVM 的发明者CJ Lin。 3. 促进知识发现和数据挖掘领域的进一步发展。网络
KDD-CUP 从97年起至今历经15届,每一年的二月份在官方网站(http://www.kdd.org/kdd2012/kddcup.shtml)上给出题目,二月份以前都在call for proposal.阶段,下面一些统计指标统计dom
这是最终提交答案的参赛者的数量,从发起至今就不断有人参与,通常都是以团队的形式。数据集不断增大,而运行速度要求增长。对所运用的机器学习模型的要求也不断提升,下面是2000年以前用到的机器学习的算法。机器学习
传统的算法如boosting, Decision Tree Nearest Neighbour , association rule(关联规则)等占大多数。事实上2003年起一些Social的数据逐渐进来(估计是Face book,Netfix等社交网站相继创立),社会网络,协同推荐等算法逐渐popular。这是后话。KDD-cup的工做量很是大,通常是成几个月得的在搞,通常人均所用时间达204个小时,最大人均所用时间为910小时,但付出的同时收获也很大。学习
KDD-CUP 97 -98 都和 CRM 客户关系管理有关,97年的题目是邮件准确得send给有需求的客户,数据集均由工业界一些企业或者机构提供。99年是美国国防部出给出的有效检测网络攻击的问题,即如何识别一些操做是属于内部正常使用行为仍是来自外部入侵,这一年的Winner 是著名的SAS公司。 测试
KDD-CUP 2000 采纳了Gazelle.com的题目,Gazelle.com是一家女性奢侈用品的网络零售商。数据信息由点击流信息和购买数据组成。Target有如下几点1 识别哪些用户会花不少钱买不少商品,2 识别重要的页面 3 挖掘访问者可能会关注的品牌。 其目的在于使网站更加个性化,并提升该网站的访问量来增长盈利。 Winner使用的好像是关联规则挖掘。 后来再访问这个网站会很让人有些失望,由于它已经堕落去卖一些旧货了。至少他没有很好得去利用此次竞赛的成果。网站
KDD Cup 2001 是一个生物学机器学习的问题。值得关注的是从这一年起,数据量(half a gigabyte when uncompressed)和参赛人数(A total of 136 groups participated )增长很是多ui
Task 1的获胜者Jie Cheng用的是贝叶斯网络学习分类器,Task 2 用的是Inductive Logic programming。 Task 3 用的是KNN算法。 能够看出传统的ML算法仍是占主导地位,仍是足够应付一些问题的。 KDD-CUP 2002年也是生物学领域的两个任务,一个是Document extraction from biological articles ,TASK 2 是基于基因删除实验的蛋白质分类问题。
KDD-CUP 2003 复杂网络的挖掘开始成为主题,1)the first Task是预测KDD2003会议举行前三个月,每篇paper会receive 多少citation; 2) Task 2 是要求参赛者构建一个只来源于LaTex的大规模文档集的citation graph. 3)最后一个Task是根据一些部分的下载日志去预测相关paper的popularity. (是一个开放性问题)。如上,这一年的topic很是有趣,复杂网络挖掘(社会网络,引文网络)被引进机器学习和数据挖掘的领域,开启了以后05-11年用ML算法去解决社会网络和协同推荐问题的热潮。这一年获奖者大多来自学术界。如NYU
KDD-CUP 2004 又是一个生物学预测问题。冠军是HKUST的杨强团队,他也是KDD-CUP 2012(BJ)的General Chair。
下面是2005-2010年的KDD-CUP 相关信息的统计
值得关注的是,随着KDD-CUP的影响力和难度质量的提升,一些获奖者会成为一些大公司的青睐对象,像05年HKUST的沈抖就被微软总部挖走,扬威也被山景城的Google挖过去了,再到后来11年中科院的项亮也加入了美国视频推荐网站hulu。07年是又是一个协同推荐的customer recommendation的TASK,出题者Netfix是美国一个租电影的社交网站。08年是西门子出题,题目是怎样从拍摄的医学图像中检测出乳腺癌,这也和Siemens公司最为盈利的Health Care市场相关(它是不少医疗检测仪器的提供商)。有意思的一点是07-09年,这三年的Winner都是IBM Research团队(其实这是因为当时IBM 研究院调集了一帮精兵强将去搞人工智能的watson问答系统,便是后来在jeopardy中打败人类的watson机器人)。因而到了2010年,按照机器学习的思惟,彷佛能够预测获奖者极可能又是IBM, 因此chair board的专家一致决定这一年让IBM Research出题,这回总不可能参加了吧。(joking.....)。
10年是关于Student Performance prediction in E-learning,也是一个颇有意思的topic,获奖者是著名的CJ Lin林志仁教授。有意思的是,这一年获奖的人数居然一张纸都写不下,这是由于聪明且搞笑的林志仁教授把这个题目当作了他教授的一门课的课程做业!因此是一个班的同窗集体参加的。。。。06年的题目很通常,可是用于training和测试 的data却出现严重的问题,最后发现前面一半的ID 都是正样本,后面一半都是负样本,因此后处理根据ID来会讨巧不少,因此原本的竞赛题变得毫无技术含量。致使委员会最后很不情愿颁奖并给出奖金,可是这连同后续也有几回的纰漏使后处理每每能提升不少performance,却揭示了机器学习中存在的一个不容忽视的问题,即数据集不够严密不够完美。因此后来有一年得到SIGKDD最佳论文奖的paper就是阐述的有关data leakage 的问题。
2011年 KDD-CUP 的题目是有关音乐推荐的主题。是一个很是经典的社会网络和协同过滤的推荐问题。获奖者项亮博士对他的解决方案在ppt中作了介绍,他作了大量工做,大概用了14种模型,包括initial BN,KNN,jaccard index,再到深化的问题,创新的解决了两个问题1)Item-based 协同推荐中点击时间的一个影响temporal influence 2)规避社会化推荐中的哈利波特效应,所谓哈利波特效应,源于amazon作推荐系统研究,发现几乎每个用户都会和哈利波特这本书创建很大相关度,而他认为推荐的意义在于令人们发现那条长尾,而不是已有的热点,如何消除或者弱化热点的影响,他采用了相关的方法见PDF。
另外两篇文章是Learning Online Discussion Structures by Conditional Random Fields(ChengXiang Zhai, Jiawei Han)是SIGIR 2011年的paper,几乎UIUC巨牛逼的教授都一齐上阵了,含金量也算能够。另一篇Mining Heterogeneous Information Networks也能够读下.