马腾宇：AI 学界一颗冉冉升起的新星

https://www.leiphone.com/news/202002/NMa5cO0x8VCLunMn.htmlhtml

本科毕业于清华姚班，博士毕业于普林斯顿大学，现在年仅31岁的马腾宇，做为 AI 学界的一颗新星正冉冉升起。算法

马腾宇目前担任斯坦福大学助理教授，其主要研究兴趣为机器学习和算法方面的研究，课题包括非凸优化、深度学习及其理论、强化学习、表示学习、分布式优化、凸松弛、高维统计等。网络

2017 年，清华 “姚班” 创立者、中国科学院院士、中国首位图灵奖得主姚期智先生在谈及姚班教育的时候，曾提到：iphone

“在学界的，咱们有好几个作人工智能的学生，已经在大学任教的有两个，一个是在美国的杜克大学，一个是在美国的斯坦福大学作教授，他们都从事人工智能理论基础方面的工做。他们在过去的四五年，在人工智能理论方面已经很是很是出色，否则他们也不会被雇到这么有名的大学去，尤为是马腾宇，他刚刚毕业，可以被雇到斯坦福去，无论是中国学生仍是外国学生都是很是少的。……他们确实能够说在人工智能领域是先驱，未来必定会在该领域留下很是深入的痕迹。”机器学习

1.

马腾宇对算法理论的兴趣始于姚班。据马腾宇介绍，让他印象最深的是当时姚期智先生为当时姚班大一新生所开设的一门课程《mathematics for computer science》，姚期智在这门课程中，每一个章节都会用一两个最为经典的案例让学生很是快速地意识到，为何在计算机领域数学很是有用。姚期智在这门课程中并无循序渐进系统地介绍计算机理论领域的细节问题，最重要的则是激发起学生对计算机理论问题的兴趣。这就至关于在计算机理论研究这场寻宝游戏中，激发起学生们对“宝藏”的渴望，至于如何寻找这些宝藏，学生们则自会摸索。这对姚班学生的兴趣培养很是重要，马腾宇也深受影响。分布式

马腾宇是清华姚班 2008 级毕业生布局

像以前以及以后的学长和学弟以及身边的同窗同样，从姚班毕业的马腾宇在本科期间醉心于计算机算法的研究。2012年本科毕业后，他选择了在普林斯顿读博，师从的Sanjeev Arora教授。学习

2.

马腾宇开始读博的时间恰逢其时。2012年，Hinton和他的学生在ImageNet比赛中凭借AlexNet远超第二名10个百分点，由此人类进入了人工智能的新时代 —— 以神经网络为表明的深度学习时代。Sanjeev做为算法领域的领军人物，具备极为敏锐的嗅觉，意识到机器学习（特别是深度学习）将成为一个具备潜力的领域，所以从2012起便开始布局机器学习算法的研究。马腾宇进入普林斯顿后，选择了机器学习算法，与鬲融等人一块儿进行非凸优化的研究。优化

在2012年的时候，大多数人还在用传统方法来作优化问题，这些基本上都是凸优化问题。而在深度学习的时代，算法一般须要经过解决一些非凸优化问题来找到最优的神经网络参数。理论上非凸优化是一个NP-hard问题，但实际中即便很是简单的算法也能表现很好。其中缘由却少有人了解。马腾宇与鬲融等人是最先一批专一于解决这一问题的研究者。随后正是凭借对非凸优化问题的系统研究，马腾宇在 2018 年得到了ACM博士论文奖荣誉奖(Honorable Mentions)，而鬲融也在2019年得到了斯隆研究奖。ui

马腾宇的博士论文，获2018 ACM 博士论文荣誉奖

3.

一个好的导师，对一个学者的研究生涯相当重要，由于导师的学术价值观和方法论会深入影响其弟子在之后研究生涯中的态度。Sanjeev无疑是一位好的导师，他所带的学生毕业后大多都去到了美国顶尖大学任教，例如鬲融毕业后去到了杜克大学。

马腾宇（2015），Source: princeton news

在普林斯顿期间，导师Sanjeev对马腾宇的影响也是极大的。马腾宇对他的评价是“Sanjeev是一个‘true scientist’”：

“Sanjeev是真的为了科学在作科研。对他关心的问题，他会细扣全部的细节，从证实，到实验，到写文章不允许一丁点的错误存在。另外，Sanjeev也很是的积极，很是的有耐心，在一个新问题上，他经常会持之以恒，从各类可能的角度去尝试，即便最初全部的尝试都失败了，他也仍然会一遍又一遍地去尝试新的想法，直到最终成功。这是我从他那里学到的很是重要的一件事情。”

4.

固然，导师的影响只是成功的一个方面，马腾宇自身的天分和勤奋让他在普林斯顿的五年时间里收获良多。

2014年，马腾宇得到了西蒙斯研究生奖（理论计算机科学方向），随后2015年得到了IBM博士奖学金，2016年得到了NIPS 最佳学生论文奖，2018年得到了COLT 最佳论文奖，其博士毕业论文也得到了ACM 博士论文荣誉奖，并在当年夏季收到了来自全球计算机Top 5中的四所高校（MIT、CMU、斯坦福、华盛顿大学）的 Offer 并最终选择去了斯坦福。

一次的成功或许只是巧合，系列的成功则是实力和潜力的证实。

NIPS'16最佳学生论文，2018年修订版

以2016年NIPS最佳论文奖为例，这项工做主要是在讲为何能够用 non-convex optimization 作Matrix Completion。Matrix Completion经常被应用在推荐系统当中。理论能够分析的算法都比较慢，而实际中使用的算法都基于non-convex optimization, 却没有理论保证和理解。所以就存在一个大的开放性问题：为何non-convex optimization能够解决这个问题？

马腾宇等人首先在这篇工做中回答了这一问题。而事实上，马腾宇与鬲融、Jason D. Lee三人从开始作这项工做到提交论文，先后只用两个月不到的时间。虽然如此，这倒是长久的积累，马腾宇差很少在一年前便意识到这个理解non-convex optimizatio的重要性，并偶尔尝试从不一样的角度去解决它，但一直没有大的收获，直到2月份他看到一篇文章中的一个小技巧，忽然灵感而至，很快便将这个问题解决了。对于这份经历，马腾宇总结到

“我以为作科研的困难主要有三个：1）找到一个重要的方向；2）找到一个能够解决的问题；3）同时有足够的技术储备和技术创新。”

COLT'18 最佳论文

2018年，马腾宇与Yuanzhi Li 、Hongyang Zhang三人合做的论文《Algorithmic Regularization in Over-parameterized Matrix Sensing and Neural Networks with Quadratic Activations》发表在COLT上，并得到了最佳论文奖。而这篇论文与NIPS‘16的最佳学生论文相似，从开始作到投稿，先后仍然只用两个月的时间。在这篇主题为“正则化”的工做中，马腾宇他们直接follow了以前的一篇工做，但那先前的工做只能解决一个特殊问题，而马腾宇意识到若是沿着他们的思路作，可能会变得愈来愈复杂。意识到这一点自己很是重要。他说：

“作科研，很重要的一点是去理解其余技术为何本质上不可行。不少时候，科研之因此思路比较慢，缘由在于你有许多选择，你不知道哪一个选择是好的，也不知道哪一个选择是坏的。这很糟糕。一旦你知道哪一个选择是坏的，剩下可选的好的就很少了。因此作科研，很重要的一步是排除是坏的选择；其次是，要知道它为何是坏的，这也比较重要，由于你若是不知道它为何是坏的话，就很难把它变成好的。
一个想法，若是你能知道它行不通的根本缘由，通常状况下就不会很难经过针对性地修改这个想法获得一个更好的方案。因此咱们这项工做模式上就是：咱们发现一个想法没有效果，而后理解了这个想法失败的的缘由，修正并提出一个新的想法；若是新的想法还解决不了问题，就找到问题，修正，循环往复，就是这样。”

2018 ACM 博士论文荣誉奖颁奖, Source: princeton news

5.

2018年对29岁的马腾宇来说是一个丰收年，COLT最佳论文、ACM博士论文荣誉奖、多所顶尖高校发出的橄榄枝……然而，受Sanjeev的影响，马腾宇对于这些荣誉表现的极为淡然。他表示

“其实没有太大的感受。首先这是你们对个人工做的一个确定，可能的缘由是个人博士论文是比较早的一系列试图理解为何non-convex optimization 能够解决机器学习的问题的工做；在此以前几乎没有这方面的研究。……但作科研，你的reward（受益或回报）每每是很是滞后的。博士论文是五年工做的总结，包括COLT’18 的最佳论文，实际上是咱们在2017年作出来的。作科研要考虑长期的reward，而不要考虑短时间的reward。”

然而，毋论马腾宇是否淡然，科研早期的荣誉对于一个科学家的成长倒是必不可少的，这可让年轻学者在攀岩科研高峰中充满信心。

6.

而另外一方面，“long-term”，正是马腾宇作科学研究的关键词。当谈到他的方法论时，马腾宇说，

“从科研的style来说，我比较在意的是long term impact，个人课题选择也会受到这方面的影响。”

在科研的实践当中，关注长期影响力是一个研究者可否成为真正科学家的关键一步。以如何看待失败的尝试为例，关注长期影响力的人会更积极地看待失败，由于从短时间来看是失败了，但从长期来看这是有益的，失败了没有关系，若是你可以知道它为何失败，在不少状况下你会改变它，让它变成一个成功的状况。

马腾宇关于Non-Convex Optimization 的报告（2017）, Source: Allen School Colloquia

马腾宇表示：“在不少状况下，若是我可以真正地知道我为何失败，不少状况下我都可以把它变成一个成功的状况。不过更多的状况是，我只能理解一点点为何我会失败，而后从中汲取一点点的经验，但长期积累，我会理解为何整个过程都不work。这样的话，我就可以摸索出另一套思路。”

当前人工智能面临诸多困境，马腾宇以十年为期，他认为人工智能的理论基础仍然是一个很是大的困难，咱们目前还很难理解算法到底作了什么，所以如何理解算法，如何更好地设计算法成了马腾宇最为关注的问题。正如他的导师Sanjeev，面对这样一个宏大的问题，他试图从各类角度（包括最优化、泛化、正则化等）进行逼近。如何经过理论思考来帮助机器学习，正是马腾宇的“long-term”问题。

他表示，尽管当前的机器学习研究过程当中，实验指导每每重于理论思考的指导。但长远来看，在随后的几年中，理论思考的指导价值将愈来愈凸显。正如在博士初期选择布局无人问津的非凸优化研究同样，马腾宇做为斯坦福的助理教授，如今也在布局机器学习理论的研究，一个更大的布局。

固然，long-term并不意味着“空中楼阁”，十年写一篇文章。为了长期的计划，马腾宇在实验指导vs理论思考中取得一个平衡，把这个long-term 分为了一系列很是小的问题，表如今成果方面即是一个个的topics，一篇篇的论文。目前马腾宇在斯坦福带着 5 名博士生以及数名硕士生，正每一年发表十几篇论文的速度一步步迈向这个目标。

雷锋网(公众号：雷锋网)报道。雷锋网雷锋网

雷锋网原创文章，未经受权禁止转载。详情见转载须知。