大话文本检测经典模型：EAST

时间 2019-11-07

标签大话文本检测经典模型 east 繁體版

原文原文链接

天然场景的文本检测是当前深度学习的重要应用，在以前的文章中已经介绍了基于深度学习的文本检测模型CTPN、SegLink（见文章：大话文本检测经典模型CTPN、大话文本检测经典模型SegLink）。典型的文本检测模型通常是会分多个阶段（multi-stage）进行，在训练时须要把文本检测切割成多个阶段（stage）来进行学习，这种把完整文本行先分割检测再合并的方式，既影响了文本检测的精度又很是耗时，对于文本检测任务上中间过程处理得越多可能效果会越差。那么有没有又快、又准的检测模型呢？算法

1、EAST模型简介网络

本文介绍的文本检测模型EAST，便简化了中间的过程步骤，直接实现端到端文本检测，优雅简洁，检测的准确性和速度都有了进一步的提高。以下图：分布式

其中，（a）、（b）、（c）、（d）是几种常见的文本检测过程，典型的检测过程包括候选框提取、候选框过滤、bouding box回归、候选框合并等阶段，中间过程比较冗长。而（e）便是本文介绍的EAST模型检测过程，从上图可看出，其过程简化为只有FCN阶段（全卷积网络）、NMS阶段（非极大抑制），中间过程大大缩减，并且输出结果支持文本行、单词的多个角度检测，既高效准确，又能适应多种天然应用场景。（d）为CTPN模型，虽然检测过程与（e）的EAST模型类似，但只支持水平方向的文本检测，可应用的场景不如EAST模型。以下图：函数

2、EAST模型网络结构oop

EAST模型的网络结构，以下图：学习

EAST模型的网络结构分为特征提取层、特征融合层、输出层三大部分。大数据

下面展开进行介绍：人工智能

一、特征提取层spa

基于PVANet（一种目标检测的模型）做为网络结构的骨干，分别从stage1，stage2，stage3，stage4的卷积层抽取出特征图，卷积层的尺寸依次减半，但卷积核的数量依次增倍，这是一种“金字塔特征网络”（FPN，feature pyramid network）的思想。经过这种方式，可抽取出不一样尺度的特征图，以实现对不一样尺度文本行的检测（大的feature map擅长检测小物体，小的feature map擅长检测大物体）。这个思想与前面文章介绍的SegLink模型很像；.net

二、特征融合层

将前面抽取的特征图按必定的规则进行合并，这里的合并规则采用了U-net方法，规则以下：

特征提取层中抽取的最后一层的特征图（f1）被最早送入unpooling层，将图像放大1倍
接着与前一层的特征图（f2）串起来（concatenate）
而后依次做卷积核大小为1x1，3x3的卷积
对f3，f4重复以上过程，而卷积核的个数逐层递减，依次为128，64，32
最后通过32核，3x3卷积后将结果输出到“输出层”

三、输出层

最终输出如下5部分的信息，分别是：

score map：检测框的置信度，1个参数；
text boxes：检测框的位置（x, y, w, h），4个参数；
text rotation angle：检测框的旋转角度，1个参数；
text quadrangle coordinates：任意四边形检测框的位置坐标，(x1, y1), (x2, y2), (x3, y3), (x4, y4)，8个参数。

其中，text boxes的位置坐标与text quadrangle coordinates的位置坐标看起来彷佛有点重复，其实否则，这是为了解决一些扭曲变形文本行，以下图：

若是只输出text boxes的位置坐标和旋转角度（x, y, w, h,θ），那么预测出来的检测框就是上图的粉色框，与真实文本的位置存在偏差。而输出层的最后再输出任意四边形的位置坐标，那么就能够更加准确地预测出检测框的位置（黄色框）。

3、EAST模型效果

EAST文本检测的效果以下图，其中，部分有仿射变换的文本行的检测效果（如广告牌）

EAST模型的优点在于简洁的检测过程，高效、准确，并能实现多角度的文本行检测。但也存在着不足之处，例如（1）在检测长文本时的效果比较差，这主要是因为网络的感觉野不够大；（2）在检测曲线文本时，效果不是很理想

4、Advanced EAST

为改进EAST的长文本检测效果不佳的缺陷，有人提出了Advanced EAST，以VGG16做为网络结构的骨干，一样由特征提取层、特征合并层、输出层三部分构成。经实验，Advanced EAST比EAST的检测准确性更好，特别是在长文本上的检测。

网络结构以下：

墙裂建议

2017年，Xinyu Zhou 等人发表了关于EAST的经典论文《 EAST: An Efficient and Accurate Scene Text Detector 》，在论文中详细介绍了EAST的技术原理，建议阅读该论文以进一步了解该模型。

关注本人公众号“大数据与人工智能Lab”（BigdataAILab），而后回复“论文”关键字可在线阅读经典论文的内容。

推荐相关阅读