斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

https://www.leiphone.com/news/202001/3OvwZ9cOJvxafzPm.htmlhtml


本科毕业于清华姚班、博士毕业于普林斯顿大学,师从 Sanjeev Arora 教授,马腾宇做为 AI 学界一颗冉冉升起的新星,现在已在国际顶级会议和期刊上发表了 20 篇高质量的论文,曾拿下 2018 ACM 博士论文奖等诸多重量级的学术荣誉。算法

日前,在北京智源人工智能研究院主办的海外学者报告会上,马腾宇带来了一场干货味十足的报告,不只基于近期聚焦的研究工做“设计显式的正则化器”分享了理解深度学习的方法,还基于本身的研究经验分享了很多研究方法论和观点。网络

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

他指出,如今用来理解深度学习的经常使用方法是隐式的正则化方法,然而他们在研究中发现,显式的正则化方法多是更好的选择。iphone

同时,他强调,计算机科学跟物理、生物等传统科学的不一样之处在于:能够不断地设计新的算法。“虽然咱们没法理解现有的深度学习算法,但咱们能够设计咱们既能理解又能保证有效的新算法。”机器学习

咱们下面来看马腾宇的报告内容:函数

1、为何过参数化的深度学习模型能实现泛化?

深度学习是马腾宇研究组的重要研究方向,他们的主要研究思路是从方法论层面,经过一些数学或理论的分析从技术的角度提升深度学习模型的性能。性能

他指出,从方法论的层面来看,深度学习当前存在的一个很是核心的挑战就在于须要很大规模的数据才能实现泛化,而且数据量的规模须要大到很是夸张的地步,以致于他认为学术界很难彻底收集这么多数据,每每只有工业界能作到。学习

所以,若是但愿深度学习模型减小对数据的依赖,就须要理解如何能用更少的数据来实现深度学习模型的泛化。测试

那为何如今过参数化(Overparametrized)的深度学习模型可以泛化呢?优化

这是由于如今的深度学习模型与以前的模型相比,一个核心区别就在于:此前的传统观点认为,当数据数量远超过参数数量时,模型才能泛化;而在深度学习时代,观点则相反,认为成功的模型应该有更多的参数、更少的数据量。因此如今深度学习模型要实现泛化,须要的参数多于数据量。

然而在深度学习的时代,模型的泛化都很是难以解释,缘由就是不少传统的观点并再也不适用了。其中有一些传统的观点仍是有效的,好比说奥卡姆剃刀定律(Occam's Razor),指的是低复杂度的模型也可能泛化得很好。

不过这种「低复杂度」实际上是很难定义的,所以更核心的问题是如何正肯定义模型复杂度,以及咱们能够经过什么方法能衡量并找到正肯定义的复杂度。这是他们但愿经过一些理论研究来解决的问题。

常见的方法是隐式的正则化方法,分析该方法能够聚焦于两个方面:第一,算法更偏好低复杂度的方案;第二,低复杂度的模型泛化得很好。分析好这两个方面,就能够理解现有的算法,同时探索新的度量复杂度的方法——由于算法偏好的复杂度基本就是正确的复杂度度量方法。

马腾宇以其团队开展的一些工做为例阐述了一些发现:

  • 第一,在模型训练和收敛方面,学习率相当重要。例如在他们最近的一篇 NeurIPS 论文中证实了,一个使用了大学习率的两层神经网络,只能表示线性的函数,于是即便使用了很复杂的模型,在有噪声的状况下也只能表示一些很是简单的解,从而使得模型要比想象中更简单些,这其实是噪声在深度学习中起到了正则化的做用。

  • 第二,初始化方法对模型的复杂度,也有一样的效果。例如 Chizat Bach 在 2019 年发表了一篇论文,证实了大的初始化状态更容易获得最小的神经切线核范数解。而他们本身的一些工做,则证实了小的初始化更偏向于获得更加「丰富」的状态,会比核状态更有意思,好比说最小的 L1 解或者原子核范数解。Woodworth 等人有一项工做基本上就说明:一个较小的初始化的模型,会收敛到一个最小的 L1 解而不是 L2 解上。

这些工做的核心思想是,不一样的算法有不一样的偏好,而不一样的偏好则会有不一样的复杂度量,学习率会有偏好,初始化状态也有偏好。

2、隐式/算法的正则化是理解深度学习的惟一方法吗?

若是想要理解深度学习,是否是只有理解隐式/算法的正则化这一种方法呢?

对此,马腾宇认为应该要从新回顾一下经典的方法——理解显式的正则化方法。他表示,显式的正则化方法确实也值得被你们关注,并且从短时间来说,它多是一个更有成效的方法。

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

隐式/算法的正则化方法,为了达到要求,须要对算法进行正则化,算法会倾向于得出低复杂度的解。然而从不少算法正则化相关的论文中,他们发如今说明「算法倾向于得出低复杂度的解」方面遭遇瓶颈,而在说明「低复杂度的解泛化得更好」方面则比较简单。

所以,显式的正则化方法多是理解深度学习更好的选择。

在这种经典的机器学习范式下,重点关注的则是研究怎样的复杂度可让模型实现更好的泛化性能。而对于「算法倾向于得出低复杂度的解」这一研究瓶颈,则「全看运气」。

显式的正则化方法的不足点是须要改变算法,由于正则化复杂度势必就会改变算法。然而其优点在于,不只仅可以理解现有的算法,还能够设计一些新的复杂度度量或正则器,设计一些新的算法,并将优化和统计数据分离开来。

他指出,最近机器学习领域的一个很火的话题是「双重降低」(Double Descent)现象,就是说测试偏差并非单一降低的,而是双重降低。而最近他们在一项工做中,尝试展现的则是在将算法正则化以后,可能就不会再出现双重降低现象。

2019 年 Nagarajan 等人的一篇 NeurIPS 最佳论文奖展现了一致收敛没法说明深度学习中发生的现象。他们举出了一个反例来讲明这一点,虽然这个反例很是使人信服,可是仅仅是针对现有算法成立的一个反例。即算法加入正则化以后,这些反例颇有可能就再也不成立了。

那如何检验是否作到了将优化和统计数据分离呢?

方法则是,模型在正则化目标函数后,无论使用什么算法都能实现一样的泛化能力,这就能说明优化和统计数据分离了。

马腾宇表示,他们如今也证实了可以使用显式的正则化方法来替代隐式的正则化方法,虽然还没法彻底替代,但他相信正在朝着这个方向前进。

3、没法理解现有的深度学习算法?那就设计一个能理解的!

在当下 AI 界的广泛认知中,深度学习的内在机理没法理解,本质上变成了一个科学问题。对此,马腾宇指出,计算机科学跟物理、生物等传统科学的不一样之处在于:能够不断地设计新的算法。

科学研究的内容更多的是世界上已经发生或存在的客观现象(好比黑洞),而在计算机科学中,研究者能够不研究发什么什么,而是去研究任何想要研究的事情。

他呼吁道:「虽然咱们没法理解现有的深度学习算法,但咱们能够设计咱们既能理解又能保证有效的新算法。我认为计算机科学领域的研究者能够把研究作得更主动一些。」

报告中,马腾宇还基于本身近期的研究工做,事无巨细地分享了显式正则化的具体研究示例,雷锋网 AI 科技评论在这里附上马博士 PPT 的相关内容:雷锋网(公众号:雷锋网)雷锋网

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

雷锋网 AI 科技评论报道。

雷锋网原创文章,未经受权禁止转载。详情见转载须知

斯坦福大学马腾宇:没法理解现有的深度学习算法?那就设计一个能理解的!

相关文章
相关标签/搜索