本文方法主要解决不规则排列文字的文字识别问题,论文为以前一篇CVPR206的paper(Robust Scene Text Recognition with Automatic Rectification,方法简称为RARE)的改进版(journal版)。html
方法ASTER全称为Attentional Scene TExt Recognizer with Flexible Rectification,包括两个模块,一个用来矫正(rectification network),另外一个用来识别(recognition work),以下图所示。git
本文要解决的问题是irregular text的识别问题,包括:多方向文字(oriented text)、透视形变文字(perspective text)、曲线文字(curved text),以下图所示:github
TPS全称Thin-Plate-Spline,能够对形变图像(仿射、透视、曲线排列等)进行校订,经过对control point进行定位和映射,来获得校订后的图像,方便后续进行识别。以下图所示,详细算法能够阅读参考文献1。算法
矫正网络框架图以下图,基本上是用STN的框架,包含三个部分,Localization Network,Grid Generator,以及Sampler。网络
该网格生成器和以前那篇会议paper(参考文献3),以及STN(参考文献2)实际上是同样的,只是做者将公式用更详细的公式推导和图表示了一下。这里简单介绍下主要思想,具体公式推导等不细讲了。框架
网格生成器的输入是已有的Control point点集 + 矫正后的图(还未生成,但给定图大小能够取点)上的某个点坐标,输出是该点在矫正前(原图)上的点坐标位置函数
网格生成器能够当作是一个矩阵变换操做(变换的几个参数a0-a2, b0-b2能够经过Control point位置利用优化问题求解方法求出,由于Control Point在矫正先后的图上的位置都是已知的,故能够计算出对应关系),实际作预测时也是计算该待测点与已知的control point的位置关系,经过一系列对应关系算出在原图的位置。贴个图感觉一下这个对应关系以下,p为矫正后的点位置,C为矫正后的Control point的点位置,p'为矫正前的点位置,C’为Control point在矫正前的点位置:学习
该Sampler就是给定点映射关系及原图,生成一张新的矫正后的图,用到了简单的插值,以及当超出图外时直接clip掉。另外,Sampler采用可微的采样方法,方便梯度的bp。测试
和STN的不一样点优化
本文在输入网络前将原图resize成小的图,而后在该小图上预测control point,而输入到Grid Generator或Sample计算的时候又映射回原图大小。这样的目的是为了减少网络参数,下降计算量(但有没有可能小图对于control point的prediction会不许?对于识别来说,每一个word的patch块自己就比较小了,并且小图映射回大图的点位置这个偏差比例就会放大?)
和RARE的不一样点
网络最后fc层的激活函数不是用tanh,而是直接对值进行clipping(具体怎么clip论文没说),这样作的目的是为了解决采样点可能落到图外面的问题,以及加快了网络训练的收敛速度,论文中对此没有解释本质缘由,只是说明实验证实如此
识别网络采用当前识别的通常思路:
sequence-to-sequence (encoder/decoder框架)+ attention + beam search。
网络主要分为两部分,ConvNet + 双向LSTM的encoder模块,和LSTM + attention的decoder模块。
损失函数以下,须要计算left-to-right的decoder以及right-to-left的decoder损失。除Location Network的FC层权重初始化为0(防止矫正后的图distort很是厉害),其他全部网络层都采用随机初始化。
结论: 矫正对通常水平样本(IIIT5k,IC03,IC13)略有提升,对形变比较大的不规则样本(SVT,SVTP,CUTE)提升3~4个点
Selected results on SVT-Perspective and CUTE80. For every two rows, the first row contains the input images (top), the predicted control points (visualized as green crosses), and the rectified images (bottom). The second row contains the recognition results.
Attention的效果
结论: attention对字符的位置有隐性的定位功能
双向LSTM的做用
结论:两个方向的LSTM有必定互补做用
字符长度的影响
结论: 字符小于11时,识别精度差很少,大于11后精度有所降低,由于长文字自己更难
结论:这个效果有点碉堡了...有几个库甩第二名好多,就连其余CVPR2018的paper都可望不可即...
结论:对检测结果能够微调,可让检测结果更好,这里提升缘由有两个,1是由于经过识别把噪声过滤掉了, 2是位置更准确
多多学习。感谢博主!