天然场景的文本检测是当前深度学习的重要应用,在以前的文章中已经介绍了基于深度学习的文本检测模型CTPN、SegLink(见文章:大话文本检测经典模型CTPN、大话文本检测经典模型SegLink)。典型的文本检测模型通常是会分多个阶段(multi-stage)进行,在训练时须要把文本检测切割成多个阶段(stage)来进行学习,这种把完整文本行先分割检测再合并的方式,既影响了文本检测的精度又很是耗时,对于文本检测任务上中间过程处理得越多可能效果会越差。那么有没有又快、又准的检测模型呢?算法
1、EAST模型简介网络
本文介绍的文本检测模型EAST,便简化了中间的过程步骤,直接实现端到端文本检测,优雅简洁,检测的准确性和速度都有了进一步的提高。以下图:分布式
其中,(a)、(b)、(c)、(d)是几种常见的文本检测过程,典型的检测过程包括候选框提取、候选框过滤、bouding box回归、候选框合并等阶段,中间过程比较冗长。而(e)便是本文介绍的EAST模型检测过程,从上图可看出,其过程简化为只有FCN阶段(全卷积网络)、NMS阶段(非极大抑制),中间过程大大缩减,并且输出结果支持文本行、单词的多个角度检测,既高效准确,又能适应多种天然应用场景。(d)为CTPN模型,虽然检测过程与(e)的EAST模型类似,但只支持水平方向的文本检测,可应用的场景不如EAST模型。以下图:函数
2、EAST模型网络结构oop
EAST模型的网络结构,以下图:学习
EAST模型的网络结构分为特征提取层、特征融合层、输出层三大部分。大数据
下面展开进行介绍:人工智能
一、特征提取层spa
基于PVANet(一种目标检测的模型)做为网络结构的骨干,分别从stage1,stage2,stage3,stage4的卷积层抽取出特征图,卷积层的尺寸依次减半,但卷积核的数量依次增倍,这是一种“金字塔特征网络”(FPN,feature pyramid network)的思想。经过这种方式,可抽取出不一样尺度的特征图,以实现对不一样尺度文本行的检测(大的feature map擅长检测小物体,小的feature map擅长检测大物体)。这个思想与前面文章介绍的SegLink模型很像;.net
二、特征融合层
将前面抽取的特征图按必定的规则进行合并,这里的合并规则采用了U-net方法,规则以下:
三、输出层
最终输出如下5部分的信息,分别是:
其中,text boxes的位置坐标与text quadrangle coordinates的位置坐标看起来彷佛有点重复,其实否则,这是为了解决一些扭曲变形文本行,以下图:
若是只输出text boxes的位置坐标和旋转角度(x, y, w, h,θ),那么预测出来的检测框就是上图的粉色框,与真实文本的位置存在偏差。而输出层的最后再输出任意四边形的位置坐标,那么就能够更加准确地预测出检测框的位置(黄色框)。
3、EAST模型效果
EAST文本检测的效果以下图,其中,部分有仿射变换的文本行的检测效果(如广告牌)
EAST模型的优点在于简洁的检测过程,高效、准确,并能实现多角度的文本行检测。但也存在着不足之处,例如(1)在检测长文本时的效果比较差,这主要是因为网络的感觉野不够大;(2)在检测曲线文本时,效果不是很理想
4、Advanced EAST
为改进EAST的长文本检测效果不佳的缺陷,有人提出了Advanced EAST,以VGG16做为网络结构的骨干,一样由特征提取层、特征合并层、输出层三部分构成。经实验,Advanced EAST比EAST的检测准确性更好,特别是在长文本上的检测。
网络结构以下:
墙裂建议
2017年,Xinyu Zhou 等人发表了关于EAST的经典论文《 EAST: An Efficient and Accurate Scene Text Detector 》,在论文中详细介绍了EAST的技术原理,建议阅读该论文以进一步了解该模型。
关注本人公众号“大数据与人工智能Lab”(BigdataAILab),而后回复“论文”关键字可在线阅读经典论文的内容。
推荐相关阅读