2013 ACM网络搜索与数据挖掘国际会议

2013 <wbr>ACM网络搜索与数据挖掘国际会议

编者按:ACM网络搜索与数据挖掘国际会议(6th ACM Conference on Web Search and Data Mining, 简称WSDM 201320132月4在乎大利首都罗马举行。微软亚洲研究院副研究员武威出席了这次会议。在WSDM设立的与图数据隐私保护相关的数据竞赛中,来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并得到了第一名。下面,让咱们一块儿来看看武威研究员带来的大会回顾。html

 

做者: 武威 微软亚洲研究院副研究员算法

 

会议概况网络

2013年2月4日,第六届 ACM网络搜索与数据挖掘国际会议 (The Sixth ACM International Conference on Web Search and Data Mining, WSDM2013) 在乎大利首都罗马举行。WSDM是一个新兴的网络搜索与数据挖掘方向的国际会议,主要由工业界的一些大型IT公司赞助。此次会议是继2009年在巴塞罗那举办以后,第二次在欧洲举办。session

 

WSDM,读音为wisdom。该会议于2008年首次举办,由微软、谷歌和雅虎等公司赞助。相对于传统的WWW、SIGIR和ACMSIGKDD等会议,WSDM更加剧视应用,是典型的应用会议。本次大会历时5天,共收到来自36个国家和地区的387篇投稿。其中,有73篇文章被大会录用,录用率为18.9%。录用文章的做者遍及20个国家,4大洲,使WSDM真正地成为了一个国际性的网络搜索与数据挖掘方向的顶级会议。其中,投稿最多和被录用文章最多的是美国。中国(包括大陆以及港澳台地区)共有10篇文章被录用,做者来自清华大学、中国科学院、中国人民大学、哈尔滨工业大学、香港中文大学以及微软亚洲研究院和惠普中国研究院。每一篇录用文章都被安排了口头报告和海报展现。为了合理安排大会时间,口头报告分为20分钟的长报告(plenary presentation)和6分钟的短报告(spot light presentation)。在73篇录用文章中,有40篇文章的做者得到了长报告的机会。长报告有问答时间,短报告则没有。框架

 

此次大会包括8个辅导报告(tutorials)、6个研讨会(workshops)、3个主题演讲(keynotes)、9个专题(sessions)以及一个数据竞赛(data challenge)。其中,数据竞赛包括图数据压缩和图数据去匿名化两个子任务,是WSDM历史上举办的首次竞赛。从主题演讲和专题的内容分布来看,社交网络(social network)成为了本次大会的绝对主角。三个主题演讲都与社交网络有关。而9个专题中,有4个与社交网络、社会媒体(social media)有关。相关工做覆盖了社交网络数据的存储、话题动态、社区发现和情感分析等各个方面。除了社交网络,还有当下十分热门的“大数据”专题。大数据专题中的工做主要研究大数据下的算法效率和数据存储问题。一个十分有意思的事情是,在会议最后一天的工做午饭(business lunch)中,WSDM的一位主席报告了他们对于录用论文题目的统计分析。经过对录用论文和未录用论文题目创建分类模型,他们发现了接收论文的一些特色,使人印象深入的是“social network”和“wikipedia”这两个关键词。这两个关键词在分类模型中颇有区分度,是论文被接收的关键性词汇。这也从另一个角度说明了本次大会,乃至整个网络搜索与数据挖掘学术领域的研究趋势。dom

 

2013 <wbr>ACM网络搜索与数据挖掘国际会议

 

主题演讲机器学习

本次大会包括三个主题演讲,分别是邓肯·沃兹(Duncan Watts)的“The Virtual Lab”,凯瑟琳·塔克(Catherine Tucker)的“Three Findings Concerning Protecting Consumer Privacy Online”,以及杨强的“Big Data, Lifelong Machine Learning and Transfer Learning”。邓肯是微软研究院的首席研究员,也是微软纽约实验室的建立人之一。他的研究兴趣是社会科学。他的演讲主题是虚拟网络对社会科学研究的影响。随着诸如Amazon’s Mechanical Turk等众包 (crowdsourcing)网站的出现,社会科学家们能够利用互联网构建一些“虚拟的实验室”,来进行以前的“物理实验室”在规模和速度上没法实现的人类行为实验。他把社会科学的研究分为了Turk前和Turk后两个部分,并经过一些实验结果说明了互联网为社会科学研究带来的机遇和挑战。凯瑟琳是美国麻省理工史隆管理学院(MIT Sloan) 的副教授。她的研究兴趣是信息技术对于人类商业行为的影响。她的演讲主题是数字化时代的我的隐私保护。互联网的产生和发展使得商业公司可以更容易地得到客户的我的信息。在这个前提下,她报告了一些关于我的隐私保护的经验性结果。基于大量的实验,验证了三个发现:第一,我的隐私保护不利于在线广告的有效推广;第二,我的隐私保护可以促进经济产出(economic outcomes);第三,限制私人数据的存储时间没有太多的经济影响(economic impact)。有趣的是此次WSDM刚好设立了一个与图数据隐私保护相关的数据竞赛。来自微软亚洲研究院的参赛队伍参加了图数据去匿名化的子任务,并得到第一名。杨强是中国香港科技大学的教授,现任华为诺亚方舟实验室的主任。他在报告中展现了诺亚方舟实验室在大数据挖掘方面取得的成果,并介绍了迁移学习(transfer learning)及其在大数据挖掘上的应用。该报告提出了持续性的机器学习和数据挖掘。工具

 

2013 <wbr>ACM网络搜索与数据挖掘国际会议

图2邓肯·沃兹做题为"The Virtual Lab"的主题演讲性能

 

具体来讲,大数据洪流带来两个挑战:一方面,如何可以有效地消除噪音,从大数据中挖掘到咱们想要的知识;另外一方面,当数据发生变化时,已有方法可否自动调整。基于这两个理念,他展现了近期诺亚实验室取得的一些成果,包括微博自动推送机器人小诺以及手机终端上的生活助手等。纵观此次大会的主题演讲,全部内容都或多或少地与当下在学术界和工业界都很热的社交网络以及大数据有关。能够说,社交大数据的时代大幕已经拉开。不管是学术界仍是工业界,都在努力争取在新技术时代留下本身的名字。然而,群雄逐鹿,胜负未分。谁能首先抓住问题的本质,以最快的速度应对变化并产生影响,谁就能占得先机,取得新时代技术上的主导地位。学习

 

最佳论文

WSDM2013从73篇接收的论文中选出了两篇最佳论文。其中,最佳论文“Optimized Interleaving for Online Retrieval Evaluation”的做者是微软研究院的两位研究员。在这篇工做中,做者系统研究了信息检索系统的在线评估办法,提出了一套新的交叉评估(interleaved evaluation)框架。交叉评估是在线评估的主要方法之一。交叉评估算法是指将同一查询下的两个排序结果以某种方式组合在一块儿,经过跟踪用户在交叉排序列表上的点击表现来评估排序方法的好坏。交叉算法包括排序组合算法和点击评分机制两部分。已有的工做都存在一些问题,在一些特定排序上会出现与直觉不一致的评估结果。本文的做者创造性地将交叉算法的设计转化成了一个带约束的优化问题,并经过理论证实说明了所提方法不只包含已有的方法,并且可以克服已有方法的一些弱点。此外,本文做者还提出了利用搜索的历史日志数据来评估交叉算法性能的方法。经过定性分析和定量评估,做者说明他们所提的交叉算法可以克服已有交叉算法存在的一些问题,在评估排序结果好坏上与传统的基于NDCG的办法有更好的一致性,同时所需的样本量又和已有的交叉算法至关。

 

最佳学生论文“Balanced Label Propagation for Partitioning Massive Graphs”是美国康奈尔大学和Facebook的合做成果,解决的是大规模图分割的问题。随着社交网络数据的迅猛增加,如何合理地分割网络关系图,从而实现分块存储成为了一个重要问题。论文将图分割问题形式化成一个带约束的优化问题,而这个优化问题又能够转化为一个线性优化问题,从而能够利用已有的线性优化工具进行高效求解。在两篇最佳论文中,分别关注了传统网络搜索和当下比较火的社交网路问题。两篇文章都有比较好的数学基础和丰富、扎实的实验结果,这也是他们可以最终获选最佳论文的重要因素之一。值得注意的是,两篇最佳论文的主题一旧一新,这体现了本届WSDM承前启后,既重视传统领域中扎实严谨的工做,又鼓励对新领域新问题探索的主导思想。

 

对WSDM将来的展望

做为一个举办了六届的大会,WSDM在投稿的数量、评审的尺度、接收论文的质量以及参与人的数量和水平上都在逐渐走向成熟。本届大会以社交网络为主题,同时兼顾大数据等新概念,很好地体现了WSDM链接学术界与工业界的宗旨。尤为是大规模关系图分割及存储技术,笔者认为不只对学术界来讲颇有研究价值,对于工业界,特别是像Facebook这样的社交网络公司也可能产生直接的应用价值。


申明:《2013 ACM网络搜索与数据挖掘国际会议》一文在微软研究院博客上转载经由《中国计算机学会通信》赞成,版权归《中国计算机学会通信》全部。原文刊登于《中国计算机学会通信》20133月 第85

做者介绍
2013 <wbr>ACM网络搜索与数据挖掘国际会议

 

 

 

武 威

微软亚洲研究院高副研究员。主要研究方向为机器学习、智能问答和信息检索。



 

 

 

参考文献

[1] http://www.wsdm2013.org

[2] 中国计算机学会通信, 第8卷第1期, 2012年1月

 

____________________________________________________________________________________ 

相关阅读

社交网搜索成为网络搜索学界最煊赫一时的话题

TextFlow:把握信息脉博

机器学习正在改变咱们的工做与生活

 

欢迎关注

微软亚洲研究院人人网主页:http://page.renren.com/600674137

微软亚洲研究院微博http://t.sina.com.cn/msra

相关文章
相关标签/搜索