【更新 2015-03-01】在LinkedIn的同事王冠和朱平的协助下,在湾区的分布式机器学习系列分享结束了。感谢LinkedIn Events团队提供场地、器材和其余支持。一块儿参与的朋友们组成了一个微信群,继续保持沟通和交流。git
从2007年博士毕业加入Google作机器学习至今已七年了,一直在工业界机器学习一线工做。尤为是从2010年开始担任腾讯广告的技术总监以后,一边组建团队,一边背负业务指标压力时,针对业务和产品设计开发机器学习技术。github
在 Google 的工做让我有机会和同事们在 collaborative filtering、spectral clustering、frequent itemset mining、graph clustering、latent topic modeling等几个重要的研究方面作了一些尝试。基于其余同事在计算架构上的创新,咱们在其中每一个方面都有将文献中的数据处理能力提高1000倍的做品。这段经历让我能更好地针对问题选择方法,对我在腾讯的工做有很大帮助。在腾讯的工做集中在 retrieval system 和 ranking system,以及为了作好它们须要的机器学习技术。其间咱们用 Go 语言开发的 Peacock至今是业界最大规模的 latent topic modeling system,在腾讯的广告、推荐和其余业务上使用。为 ranking 作的点击率预估系统也让咱们团队成为 KDD Cup 2012的出题者和裁判团队。和学界的交流,收获和感触都不少。算法
这七年里的亲身参与和有幸旁观,让我总结了一些经验和造成了一些观点。有趣的是,这些观点与开源社区以及学术界对“大数据学习”的认识南辕北辙。2014年来到湾区工做以后,Linkedin的同事们鼓励和帮助我分享经历和经验。卡耐基梅隆大学的邢波(Eric Xing)教授也但愿我给机器学习系的同窗们作一个系列讲座。电子工业和人民邮电出版社的编辑朋友们也但愿我完善和出版个人系列博客《分布式机器学习的故事》。微信
承蒙你们的鼓励和帮助,咱们准备在湾区和匹兹堡同时开始一个系列的分享:第一次是分享个人经验总结和观点,后面十次每次分享一个我亲身经历过的工业界的实战故事。咱们但愿经过帮助朋友们模拟业界实战,营造一个深刻思考和交流的机会。更清晰地判断大数据学习技术和业务生态发展方向。架构