读完这45篇论文，“没人比我更懂AI了”

时间 2019-12-11 标签读完论文没人

做者 | 黄海广
程序员

转载自机器学习爱好者（ID:ai-start-com）算法

导读：AI领域的发展会是IT中最快的。咱们所看到的那些黑科技，其后无不堆积了大量论文，并且都是最新、最前沿的论文。从某种角度来说，它们所用的技术跟书籍里的内容确实不是一个时代。要想与时俱进，就必须改变思路——从论文入手。今天给你们介绍45篇让你跟上AI时代的论文，读完后，相信你会比“全知全能”的特朗普更了解AI一分。网络

1、神经网络基础部分

No1 wide_deep模型论文：架构

关于神经元、全链接网络之类的基础结构，想必每一个AI学者都有了解。那么你是否真的了解全链接网络中深层与浅层的关系呢？来看看wide_deep模型吧。这篇论文会使你对全链接有个更深入的理解。并发

关于该模型的更多介绍能够参考论文：app

arxiv.org/pdf/1606.0779框架

在wide_deep模型中，wide模型和deep模型具备各自不一样的分工。机器学习

wide模型：一种浅层模型。它经过大量的单层网络节点，实现对训练样本的高度拟合性。它的缺点是泛化能力不好。ide
deep模型：一种深层模型。它经过多层的非线性变化，使模型具备很好的泛化性。它的缺点是拟合度欠缺。函数

将两者结合起来——用联合训练方法共享反向传播的损失值来进行训练—可使两个模型综合优势，获得最好的结果。

No2 wide_deep模型论文：

为何Adam被普遍使用？光会用可不行，还得把原理看懂。这样出去喷一喷，才会显得更有面子。

Adam的细节请参阅论文《Adam: A Method for Stochastic Optimization》，该论文的连接网址是：

arxiv.org/pdf/1412.6980

No3 Targeted Dropout模型论文：

你还再用普通的Dropout吗？我已经开始用Targeted Dropout了，比你的又快，又好。你不知道吧，赶忙学习一下。

Targeted Dropout再也不像原有的Dropout那样按照设定的比例随机丢弃部分节点，而是对现有的神经元进行排序，按照神经元的权重重要性来丢弃节点。这种方式比随机丢弃的方式更智能，效果更好。更多理论见如下论文：

openreview.net/pdf?id=HkghWScuoQ

2、图像分类部分

No4 Xception模型论文：

在那个图像分类的时代，谷歌的Xception系列，像x战警同样，一个一个的打破记录。其中的技术也逐渐成为AI发展的知识体系。有必要看一下，或许会对本身的工做有所启发。

详细状况请查看原论文《Xception: Deep Learning with Depthwise Separable Convolutions》，该论文网址是：

arxiv.org/abs/1610.0235

No5 残差结构论文：

运气好到没朋友，现有模型，后完善理论指的就是残差结构这哥们。它的传奇致使即便到今天的AI技术，也没法将它割舍，就来常微分方程都得拿它比肩。快来学学吧，用处大着呢。好多模型都拿它当先锋。

利用残差结构，可使得网络达到上百层的深度。详情请参阅原始论文《Deep ResidualLearning for Image Recognition》，该论文网址是：

arxiv.org/abs/1512.0338

No6 空洞卷积论文：

NasNet的招牌动做，虽然不是出于NASNet，可是却被人家用得如火纯青。有时不得不惊叹，机器设计出来的模型还真实跟人设计的不同！

想知道空洞卷积的感觉野为何与层数呈指数级关系吗？

细节请查看原论文《Multi-scale context aggregation by dilated convolutions》，该论文网址是：

arxiv.org/abs/1511.0712

No7 DenseNet论文：

这个模型使我想到了“一根筋”，再次证实了只有轴的人才能成大事！另类的模型，神奇的效果，快来体验一下吧。这但是比华佗还牛的神医哦！

有关DenseNet模型的细节，请参考原始论文《Densely Connected Convolutional Networks》，该论文的链接是：

arxiv.org/abs/1608.0699

No8 EfficientNet模型论文：

知道目前位置图像分类界谁是老大吗？来，看看这个！

EfficientNet模型的论文地址以下：

arxiv.org/pdf/1905.1194

No9 Grad-CAM模型论文：

若是你能把神经元搞得透彻，你也会想到这个点子。不想聊太多！一个字“绝”！这TMD才叫卷积网络的可视化！

详细状况请参阅论文《Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization》，该论文的连接网址是：

arxiv.org/pdf/1610.0239

No10 分类模型泛化能力论文：

知道为啥都喜欢使用ResNet模型当先锋吗？运气好就是运气好！好到你们都喜欢用它，还说不出为啥它那么好！反正就是好，不信的话看看这篇论文的实验结果。

论文中，在选取模型的建议中，屡次提到了ResNet模型。缘由是，ResNet模型在Imgnet数据集上输出的特征向量所表现的泛化能力是最强的。具体能够参考如下论文：

arxiv.org/pdf/1805.0897

3、批量正则化部分

No11 批量正则化论文：

这个没的说，必修课，不懂的话，会被鄙视成渣渣！

论文《Batch Normalization Accelerating Deep Network Training by Reducing Internal Covariate Shift》，该论文网址是：

arxiv.org/abs/1502.0316

No12 实例归一化论文：

时代不一样了，批量归一化也升级了，赶忙学学新的归一化吧。

在对抗神经网络模型、风格转换这类生成式任务中，经常使用实例归一化取代批量归一化。由于，生成式任务的本质是——将生成样本的特征分布与目标样本的特征分布进行匹配。生成式任务中的每一个样本都有独立的风格，不该该与批次中其余的样本产生太多联系。因此，实例归一化适用于解决这种基于个体的样本分布问题。详细说明见如下连接：

arxiv.org/abs/1607.0802

No13 ReNorm算法论文：

ReNorm算法与BatchNorm算法同样，注重对全局数据的归一化，即对输入数据的形状中的N维度、H维度、W维度作归一化处理。不一样的是，ReNorm算法在BatchNorm算法上作了一些改进，使得模型在小批次场景中也有良好的效果。具体论文见如下连接：

arxiv.org/pdf/1702.0327

No14 GroupNorm算法论文：

GroupNorm算法是介于LayerNorm算法和InstanceNorm算法之间的算法。它首先将通道分为许多组（group），再对每一组作归一化处理。

GroupNorm算法与ReNorm算法的做用相似，都是为了解决BatchNorm算法对批次大小的依赖。具体论文见下方连接：

arxiv.org/abs/1803.0849

No15 SwitchableNorm算法论文：

咱们国人作产品都喜欢这么干！all in one ,好吧。既然那么多批量归一化的方法。来，来，来，咱们来个all in one吧。不服来辩，我这啥都有！

SwitchableNorm算法是将BN算法、LN算法、IN算法结合起来使用，并为每一个算法都赋予权重，让网络本身去学习归一化层应该使用什么方法。具体论文见下方连接：

arxiv.org/abs/1806.1077

4、注意力部分

No16 大道至简的注意力论文：

把AI搞成玄学也就算了！竟然还扯到道家了！谷歌的工程师真实中外通吃啊！搞出来了一个只用注意力就能作事的模型，连卷积都不要了！你说好玩很差玩！至简不至简！刺激不刺激！

大名鼎鼎的Attention is All You Need 注意力机制论文

注意力机制因2017年谷歌的一篇论文Attention is All You Need而名声大噪。下面就来介绍该技术的具体内容。若是想了解更多，还能够参考原论文，具体地址以下：

arxiv.org/abs/1706.0376

No17-18 孪生注意力论文：

比如LSTM与GRU同样，注意力它们家也除了一对双胞胎，长得略微有点不一样。可是功能同样，都能吃能喝，还能注意。老虎老鼠傻傻的不清楚！

—BahdanauAttention：arxiv.org/abs/1409.0473。

—LuongAttention：arxiv.org/abs/1508.0402。

No19 各自升级的孪生注意力论文：

话说这对双胞胎，出生后就分开了。各自学的不一样的语言，一个学习汉语，一个学习中文。若干年后，见面，发现两者的能力仍是同样！

BahdanauAttention注意力升级成了normed_BahdanauAttention，而LuongAttention注意力升级成了scaled_LuongAttention。都同样的效果，你爱用哪一个用哪一个吧！

例如：

在BahdanauAttention类中有一个权重归一化的版本（normed_BahdanauAttention），它能够加快随机梯度降低的收敛速度。在使用时，将初始化函数中的参数normalize设为True便可。

具体能够参考如下论文：

arxiv.org/pdf/1602.0786

No20 单调注意力机制论文：

老公主动表忠心，我之后不看别的美女。老婆以为不够，再加个限制：你之后不许看别的女人！因而单调注意力就出来了。

单调注意力机制（monotonic attention），是在原有注意力机制上添加了一个单调约束。该单调约束的内容为：

（1）假设在生成输出序列过程当中，模型是以从左到右的方式处理输入序列的。

（2）当某个输入序列所对应的输出受到关注时，在该输入序列以前出现的其余输入将不能在后面的输出中被关注。

即已经被关注过的输入序列，其前面的序列中再也不被关注。

更多描述能够参考如下论文：

arxiv.org/pdf/1704.0078

No21 混合注意力机制论文：

这个注意力很强大，比通常的注意力专一的地方更多，信息更丰富。我已经注意你好久了！呵呵呵~~~

由于混合注意力中含有位置信息，因此它能够在输入序列中选择下一个编码的位置。这样的机制更适用于输出序列大于输入序列的Seq2Seq任务，例如语音合成任务。

具体能够参考如下论文：

arxiv.org/pdf/1506.0750

5、高级的卷积网络知识

No22 胶囊网络与动态路由的论文：

这是一股为图像分类降温的寒风，深入而又尖锐的点出了卷积网络的硬伤！从事最大池化再无翻身之日。

虽然胶囊网络在实际应用中，不像它的理论那么牛，可是对AI的帮助，卷积的理解是革命性的，很是值得一读。另外，这也是一篇绝对让你对数学完全绝望的论文。花几根白头发把里面的算法啃下来吧，这样你与大神就能更近一步。

胶囊网络分为主胶囊与数字胶囊，主胶囊与数字胶囊之间的耦合系数是经过训练得来的。在训练过程当中，耦合系数的更新不是经过反向梯度传播实现的，而是采用动态路由选择算法完成的。该算法来自如下论文连接：

arxiv.org/pdf/1710.0982

目前胶囊网络的研究还处于初级阶段，随着人们研究的深刻，相信这些问题会获得解决。

No23 矩阵胶囊网络与EM路由算法：

若是你以为不过瘾，那么还能够再看一篇。继续自虐一下。

带有EM（指望最大化）路由的矩阵胶囊网络是动态路由胶囊网络的一个改进版本。论文连接以下：

openreview.net/pdf?id=HJWLfGWRb

No24 胶囊网络的其它用处：

胶囊网络混身是宝，但就是本身不争气。这也说明还有上升的空间。就拿其中一个动态路由算法来说，竟然比普通的注意力还好。

看完以后，相信你必定会手痒！要不要也试试？把你的注意力换一下。值得你尝试，会有彩蛋的！

该论文的实践也证实，与原有的注意力机制相比，动态路由算法确实在精度上有所提高。具体介绍可见如下论文：

arxiv.org/pdf/1806.0150

No25 卷积网络新玩法TextCNN模型：

早先小编在一个项目中，本身用卷积网络处理字符数据。本身感受很Happy。没想到，无心间竟然发现了一篇一样这么干的论文。竟然还有个名字，叫TextCNN。哎！惋惜啊！小编文化少，只会写代码，不会写论文。

TextCNN模型是利用卷积神经网络对文本进行分类的算法，由 Yoon Kim 在 Convolutional Neural Networks for Sentence Classification 一文中提出。论文地址：

arxiv.org/pdf/1408.5882

6、图像内容处理部分

No26 FPN模型论文（包含了ROIAlign的匹配算法）：

要是搞计算机视觉，仍是要建议看一下。很是的基础。也是图像分割方面的用得最多得模型。

FPN的原理是：将骨干网络最终特征层和中间特征层的多个尺度的特征以相似金字塔的形式融合在一块儿。最终的特征能够兼顾两个特色——指向收敛目标的特征准确、特征语义信息丰富。更多信息能够参考论文：

ROIAlign层中的匹配算法也来自于这篇FPN论文，连接以下：

arxiv.org/abs/1612.0314

No27 Mask R-CNN模型论文：

效果好，代码多！硬货！来啃吧！

Mask R-CNN模型是一个简单、灵活、通用的对象实例分割框架。它可以有效地检测图像中的对象，并为每一个实例生成高质量的分割掩码，还能够经过增长不一样的分支完成不一样的任务。它能够完成目标分类、目标检测、语义分割、实例分割、人体姿式识别等多种任务。具体细节能够参考如下论文：

arxiv.org/abs/1703.0687

No28 YOLO V3模型论文：

这个模型的提点就是快！目标识别强烈推荐。

YOLO V3模型的更多信息能够参考如下连接中的论文：

https://pjreddie.com/media/files/papers/YOLOv3.pdf

No29 Anchor-Fress模型--FCOS模型论文：

随着AI技术的进步Anchor-Fress模型死灰复燃（早先是YOLO V1那一批模型），此次不同的是完全干掉带Anchor的模型。训练起来那就一个爽！妈妈不再用为我准备单独的Anchor标签了。

与YOLO V1相比， FCOS模型的思想与YOLO V1模型很是类似，惟一不一样的是FCOS模型没有像YOLOv1那样只考虑中心附近的点，而是利用了ground truth边框中全部的点来进行预测边框。而且经过 center-ness 分支来抑制那些效果不行的检测边框。这样FCOS 就能够改善YOLO V1模型总会漏掉部分检测边框的缺点。

相关论文地址：

arxiv.org/abs/1904.0135

No30 Anchor-Fress模型--CornerNet-Lite模型论文：

同样也是Anchor-Fress模型，与FCOS效果差很少少，具体看一下论文吧。

CornerNet-Lite模型。相关论文地址：

arxiv.org/pdf/1904.0890

No31 栈式沙漏网络模型--Hourglass论文：

最初用户人的姿态估计，在符合模型中也是常被使用的模型。论文地址：

arxiv.org/abs/1603.0693

No32 OCR必修课——STN模型论文：

可让模型自动仿射变化，你说牛不牛！要学OCR，就得从这个开始。

有关STN模型的论文连接以下：

arxiv.org/abs/1506.0202

7、循环神经网络部分

No33 QRNN模型论文：

在RNN模型的cell里，若是还只知道LSTM和GRU。那就太low了。快来补补吧：

若是想更多了解QRNN，能够参考如下论文：

arxiv.org/abs/1611.0157

No34 SRU模型论文：

接着来，各类RNN的Cell。又漂亮，又好吃！

SRU单元在本质上与QRNN单元很像。从网络构建上看，SRU单元有点像QRNN单元中的一个特例，可是又比QRNN单元多了一个直连的设计。

若须要研究SRU单元更深层面的理论，能够参考以下论文：

arxiv.org/abs/1709.0275

No35 IndRNN模型论文：

再补一个，这可都是好cell啊！

将IndRNN单元配合ReLu等非饱和激活函数一块儿使用，会使模型表现出更好的鲁棒性。

有关IndRNN单元的更多理论，能够参考论文：

arxiv.org/abs/1803.0483

No36 IndRNN模型论文：

最后，再来一个cell，如想要了解更多关于JANET单元的内容，能够参考如下论文：

arxiv.org/abs/1804.0484

8、AI合成部分

No37-38 Tacotron与Tacotron-2模型论文：

AI合成部分的经典模型，以上结构来自Tacotron与Tacotron-2两个结构，更多内容能够参考如下两篇论文：

arxiv.org/pdf/1703.1013

arxiv.org/pdf/1712.0588

No39 DeblurGAN模型论文：

图片合成的论文太多了。这里简单列几个，大致原理和思路了解便可。

DeblurGAN模型是一个对抗神经网络模型，由生成器模型和判别器模型组成。

—生成器模型，根据输入的模糊图片模拟生成清晰的图片。

—判别器模型，用在训练过程当中，帮助生成器模型达到更好的效果。

具体能够参考论文：

arxiv.org/pdf/1711.0706。

No40 AttGAN模型论文：

一样，这也是个图片合成的。不一样的是多属性合成，相对比较有意思。

AttGAN模型由两个子模型组成：

（1）利用编码器模型将图片特征提取出来。

（2）将提取的特征与指定的属性值参数一块儿输入编码器模型中，合成出最终的人脸图片。

更多细节能够参考论文：

arxiv.org/pdf/1711.1067

No41 RNN.WGAN模型论文：

能够合成文本的GAN。离散数据也能干！

RNN.WGAN模型使用了WGAN模型的方法进行训练。详细作法能够参考以下论文：

arxiv.org/abs/1704.0002

9、多任务学习

No42 MKR模型论文：

多任务学习模型有必要了解一下。这里推荐一个论文给你看看。

MKR是一个多任务学习的端到端框架。该框架可以将两个不一样任务的低层特征抽取出来，并融合在一块儿实现联合训练，从而达到最优的结果。有关MKR的更多介绍能够参考如下连接：

arxiv.org/pdf/1901.0890

10、NLP部分

No43 BERT模型论文：

若是你搞NLP，那么这个就不用我来介绍了。若是你准备搞NLP，那么赶忙来看看这个，跟上时代。

BERT相关论文连接

arxiv.org/abs/1810.0480

在BERT以后，又出了好多优秀的模型。可是，仍是先把这个啃下来，再看别的才不费劲。

11、模型攻防

No44 FGSM模型论文：

攻击模型的经典方法。值得掌握。

FGSM（Fast Gradient Sign Method）是一种生成对抗样本的方法。该方法的描述以下：

（1）将输入图片看成训练的参数，使其在训练过程当中能够被调整。

（2）在训练时，经过损失函数诱导模型对图片生成错误的分类。

（3）当屡次迭代致使模型收敛后，训练出来的图片就是所要获得的对抗样本。

具体能够参考论文：

arxiv.org/pdf/1607.0253

No45 黑箱攻击论文：

基于雅可比（Jacobian）矩阵的数据加强方法，是一种经常使用的黑箱攻击方法。该方法能够快速构建出近似于被攻击模型的决策边界，从而使用最少许的输入样本。即：构建出代替模型，并进行后续的攻击操做。

详细请见以下连接：

arxiv.org/abs/1602.0269

这里只是列了一些基础的论文。若是这45篇论文看完，能够保证你再看到大厂的产品时，不会感受有代沟。

（*本文为 AI科技大本营转载文章，转载请联系原做者）

◆

精彩推荐

◆

“只讲技术，拒绝空谈！”2019 AI开发者大会将于9月6日-7日在北京举行，这一届AI开发者大会有哪些亮点？一线公司的大牛们都在关注什么？AI行业的风向是什么？2019 AI开发者大会，倾听大牛分享，聚焦技术实践，和万千开发者共成长。

目前，距大会盲订票限量发售结束仅剩2天~扫码购票，领先一步！

推荐阅读

你点的每一个“在看”，我都认真当成了喜欢

读完这45篇论文，“没人比我更懂AI了”

1、神经网络基础部分

追溯XLNet的前世此生：从Transformer到XLNet

Fast.ai：从零开始学深度学习 | 资源

10个简单小窍门带你提升Python数据分析速度（附代码）

Python手写线性回归算法

程序员爬取 3 万条评论，《长安十二时辰》槽点大揭秘！

抖音微博等短视频千万级高可用、高并发架构如何设计？

为什么 5G、物联网和区块链，能够成为科技铁三角？