大话文本检测经典模型：Pixel-Anchor

时间 2019-11-07

标签大话文本检测经典模型 pixel anchor 繁體版

原文原文链接

文本检测是深度学习中一项很是重要的应用，在前面的文章中已经介绍过了不少文本检测的方法，包括CTPN（详见文章：大话文本检测经典模型CTPN）、SegLink（详见文章：大话文本检测经典模型SegLink）、EAST（详见文章：大话文本检测经典模型EAST）、PixelLink（详见文章：大话文本检测经典模型PixelLink），这些文本检测方法主要分为两类，一类是基于像素级别的图像语义分割方法（pixel-based），另外一类是采用通用目标检测（使用锚点）的方法（anchor-based），这两种方法的优劣以下：算法

基于像素级别的图像语义分割方法（pixel-based）：经过图像语义分割得到可能的文本像素，经过像素点进行回归或对文本像素进行聚合获得文本框位置，经典的检测模型有PixelLink、EAST等。该方法具备较高的精确率，但对于小尺度的文本因为像素过于稀疏而致使检测率不高（除非对图像进行大尺度放大）。
采用通用目标检测（使用锚点）的方法（anchor-based）：在通用物体检测的基础上，经过设置较多数量的不一样长宽比的锚来适应文本尺度变化剧烈的特性，以达到文本定位的效果，经典的检测模型有CTPN、SegLink等。该方法对文本尺度自己不敏感，对小尺度文本的检测率高，可是对于较长且密集的文本行而言，锚匹配方式可能会无所适从（须要根据实际调整不一样大小的网络感觉野，以及锚的宽高比）。另外，因为该方法是基于文本总体的粗粒度特征，而不是基于像素级别的精细特征，所以，检测精度每每不如基于像素级别的文本检测。

pixel-based、anchor-based方法示意图以下：

那么有没有将pixel-based和anchor-based两种方法的优势结合在一块儿的检测方法呢？
答案是有的，这就是本文要介绍的端到端深度学习文本检测方法 Pixel-Anchor微信

一、Pixel-Anchor网络结构
Pixel-Anchor的网络结构以下图所示：

该网络采用ResNet-50做为网络的主干结构（ResNet网络的介绍详见文章：大话CNN经典模型ResNet），提取出1/4, 1/8, 1/16的feature map（特征图）出来，做为像素级别语义分割模块（Pixel based Module）和锚检测回归模块（Anchor based Module）的基础特征，经过特征共享的方式把像素级别语义分割和锚检测回归放入到一个网络之中，其中，pixel-based模块获得的输出结果经过注意力机制送入到anchor-based模块中（注意力机制的介绍详见文章：大话注意力机制），使得锚检测回归模块检测效率高、精确度高，最后经过融合NMS（非极大值抑制）获得最终的检测结果。
下面分别对像素级别语义分割模块（Pixel based Module）和锚检测回归模块（Anchor based Module）进行介绍。网络

二、像素级别语义分割模块（Pixel based Module）
该模块的结构以下：

该结构将FPN（特征金字塔网络）、ASPP（Atrous Spatial Pyramid Pooling，膨胀空间金字塔池化）操做组合在一块儿进行特征提取和处理。
输入图像首先通过ResNet-50主干网络分别提取出1/4, 1/8, 1/16的feature map（特征图）造成特征金字塔。在1/16的feature map（特征图）中，为了既不牺牲特征空间分辨率，又可扩大特征感觉野，采用了ASPP（Atrous Spatial Pyramid Pooling，膨胀空间金字塔池化）方法，这是一种低代价（low cost）的增长网络感觉野的方法。那什么是ASPP方法呢？
ASPP是利用Atrous Convolution（膨胀卷积），将不一样扩张率的扩张卷积特征结合到一块儿（如取最大值），以下图：

在这个pixel-based模块中设置ASPP的膨胀率为{3, 6, 9, 12, 15, 18}。接着做一次卷积操做（Conv），再用因子为2倍的双线性插值进行上采样（Upsample），特征图变为1/8，并和来自网络主干的1/8特征图进行拼接（concat）。接下来重复一次，先作卷积（Conv），再进行上采样（Upsample），特征图变为1/4，并和来自网络主干的1/4特征图进行拼接（concat）。最后输出两部分：旋转框预测器（RBox predictor）和注意力热力图（attention heat map）。框架

旋转框预测器（RBox predictor）的结果包括6个通道，分别是每一个像素是文本的可能性、该像素到所在文本边界框的上下左右距离、文本边界框的旋转角度。
注意力热力图（attention heat map）包括一个通道，表示每一个像素是文本的可能性，将输出到anchor-based模块。

三、锚检测回归模块（Anchor based Module）
该模块的结构以下图：

先看该图的右半部分，该模块主要是针对输入图像在ResNet-50中提取的1/4特征图、1/16特征图进行操做。分布式

对于1/4特征图，因为其处于底层，具备必定的分辨率，对于检测较小的文字具备必定优点，另外，为了增长该层的语义信息，还与pixel-based模块输出的注意力热力图（attention heat map）进行exp操做（exponential）和点乘，exp操做使每一个像素成为正样本文本的几率映射到[1.0,e]范围以内，既可保留背景信息，又增强检测信息，可很大程度上减小错误检测。
对于1/16特征图，为了获取更大的感觉野、得到多尺度信息，进一步进行特征提取，分别为1/32特征图、1/64特征图、1/64特征图、1/64特征图，其中，为避免出现很小的特征图，在后面两个特征图中，采用了atrous conv（膨胀卷积），以实现分辨率不变，并能得到较大感觉野，这四层特征图在其后都加入APL层（adaptive predictor layer，自适应预测层）。

APL层（adaptive predictor layer，自适应预测层），见上图的左半部分，该层分别为不一样的卷积核搭配不一样的宽高比锚，以适应不一样尺度、不一样角度的文本。主要分为如下5类：函数

a)、正方形anchors：宽高比=1:1，卷积滤波器大小为3x3，主要为了检测方正规整的文字；
b)、中等水平anchors：宽高比={1:2,1:3,1:5,1:7}，卷积滤波器大小为3x5，主要为了检测水平倾斜的文字；
c)、中等垂直anchors：宽高比={2:1,3:1,5:1,7:1}，卷积滤波器大小为5x3，主要为了检测垂直倾斜的文字；
d)、长的水平anchors：宽高比={1:15,1:25,1:35}，卷积滤波器大小为1xn，主要为了检测水平长行的文字；
e)、长的垂直anchors：宽高比={15:1,25:1,35:1}，卷积滤波器大小为nx1，主要为了检测竖排长行的文字。

通过以上APL层以后，将获得的proposal（候选框）进行拼接，从而预测最终的四边形区域。oop

为了实现对密集文本的检测，做者还提出了anchor density（锚密度），以下图：

每一个anchor（锚点）经过复制出一些偏移量以更好地覆盖密度文本，主要有：学习

正方形anchor在水平和垂直方向都进行复制
水平anchor在垂直方向复制
垂直anchor在水平方向复制

四、后处理
在推导阶段，采用融合NMS（非极大值抑制）方法得到最终的检测结果，用anchor-based模块检测小文本和长文本，用pixel-based模块检测中等大小的文本。在anchor-based模块，1/4特征图上的全部anchor（锚点）和在其它特征图上的全部长anchor（锚点）都会被保留下来，这些anchors足够覆盖小文本，而对于长文本、大角度文本，不具备检测能力；在pixel-based模块，将小于10像素，以及宽高比不在[1:15, 15:1]范围内的文字过滤掉。最终，收集全部保留的候选文本框，经过融合NMS方法得到最终的检测结果。测试

五、Pixel-Anchor检测效果
Pixel-Anchor在小文本、大角度文本、长文本行，以及天然场景文本检测中，均取得了比较好的效果，以下图：
（1）小文本检测效果

（2）大角度文本检测效果

（3）长文本行检测效果

（4）天然场景文本检测效果（基于ICDAR 2015）

经在ICDAR 2015数据集上进行测试，并与CTPN、SegLink、EAST、Pixel-Link等方法进行对比，Pixel-Anchor方法的检测效果很是不错，以下表：大数据

六、总结
Pixel-Anchor做为一个端对端的深度神经网络框架，对各类尺度、角度的文本均有很不错的检测效果，主要有两大创新点：

第一是把像素级别的图像语义分割以及基于锚的检测回归方法经过共享基础特征、注意力机制高效融合在一块儿，使文本检出率高、精准度高，实现可端到端训练的检测网络。
第二是在锚点检测回归这个模块中引入了APL层（Adaptive Predictor Layer，自适应预测层），该层根据各特征图感觉野的不一样，调整锚的长宽比、卷积核的形状以及锚的空间密度，以高效地获取各特征图上的文本检测结果，适应性更强。

欢迎关注本人的微信公众号“大数据与人工智能Lab”（BigdataAILab），获取更多信息

推荐相关阅读

一、AI 实战系列

二、大话深度学习系列

三、图解 AI 系列

什么是语义分割、实例分割、全景分割

四、AI 杂谈

五、大数据超详细系列