【CVPR2018笔记】Deep Layer Aggregation

论文下载: https://arxiv.org/abs/1707.06484

        这篇CVPR2018会议论文其实是对于现今的网络结构(VGG、ResNet、ResNeXt、DenseNet等等)的总结抽象,了解它们的网络结构背后更深层次的内容并提出了两种比较抽象的网络结构iterative layer aggregation(IDA)和Hierarchical layer aggregation(HDA),我把他们称为迭代层聚合以及分层层聚合,先上论文里的图。

        a与b是已存在的网络结构,c就是迭代层聚合,可以很直观的感受到它的网络结构中关于迭代的思想,通过迭代从浅层到深层不断改善layer的输出。c借鉴了b中的跳层连接,但通过修改解决了b中最浅层的部分会对最终结果产生最深远影响的问题。而d通过一种树状结构块分层次进行聚合,通过不同的深度更好的跨越了不同层级的特征。e和f通过改变d的中间聚合部分对于网络的影响以及在同样深度条件下结合比较成功的聚合方式来提高效率,f就是作者提出的分层层聚合的结构。c与f的数学表达式如(1)与(2),同样是论文中的式子。

        然后就是论文最核心的部分,作者将IDA与HDA的设计思路融合,提出了DLA(Deep layer aggregation)结构,如下:

        红框标注的即为HDA的类树形结构,黄线即为IDA的迭代方法,作者通过DLA将两者结合,通过HDA将数据(图片)的浅层与深层表达进行更好地融合(突然想起实验室老师的名言:ResNet就像考试的时候做选择题你先凭感觉确定一个答案,再算算算得到另一个答案,将他们结合,是正确答案的概率反正不会比任意一种小),这种融合方式看结构也应该比简单地残差模块以及Dense模块更好,然后通过IDA不断进行迭代完善得到最终输出。

        实验部分一般是外文的精华,这一篇更是如此。作者在图像识别、细粒度图像识别、语义分割、边界检测这五个CNN有着巨大贡献的领域对DLA进行了实验,我们挑细粒度图像识别,可以看到DLA的结果非常不错。