大话文本检测经典模型：CTPN

时间 2019-11-07

标签大话文本检测经典模型 ctpn 繁體版

原文原文链接

文字识别是AI的一项重要应用，例如将包装盒上的文字识别出来、将产品说明书上的文字识别出来、将大街上广告牌的文字识别出来等等，在现实生活中能给咱们带来很大的便利，有着很是普遍的应用。算法

一个简单的文字识别流程以下：微信

Step 1. 经过手机、摄像机等设备采集含有待识别字符的图像，做为输入；网络

Step 2. 对图像进行尺寸缩放、明暗调整、去噪等预处理操做；分布式

Step 3. 将图像中的单个字符、或者是连续几个字符所在的区域检测出来；ide

Step 4. 根据文本检测结果从图像中将文本所在区域分割出来，而后导入到模型中进行文本识别，进而获得图像中的字符信息。函数

其中，这个流程有两个环节很是关键，一个是“文本检测”、另外一个是“文本识别”，本文将介绍“文本检测”的经典模型CTPN，而“文本识别”模型将在后面另外介绍，敬请关注。oop

对于印刷字体的检测，因为排版很规范，如今的检测、识别技术已经很成熟了，咱们平常使用的微信、QQ里面就有提取图片中文字的功能。而对于天然场景下的文字检测，因为光照环境以及文字存在着不少样的形式，要将文字检测出来则有比较大的难度，例如要检测出大街上广告牌中的文字，以下图：性能

本文主要介绍文本检测的经典模型：CTPN，它不只能够用于检测天然场景下的文字，印刷文字的检测天然也不在话下。学习

1、文字分布的特色字体

在了解文字检测以前，先来看一下文字分布的特色。不管是印刷文字，仍是天然场景下的文字，通常文字是水平排列，连续字符的长度可变，但高度基本相同，以下图：

这也是CTPN的基本思路，既然宽度是可变、不肯定的，那么就按照固定的高度进行检测，看看图像中有哪些区域是连续出现了一片一样高度特征的区域，而且其边缘符合文字的特色，就将其圈出来。

2、什么是CTPN

CTPN，全称是“Detecting Text in Natural Image with Connectionist Text Proposal Network”（基于链接预选框网络的文本检测）。该模型主要是对图片中的文本行进行准肯定位，其基本作法是直接在卷积得到的feature map（特征图）上生成的一系列适当尺寸的文本proposals（预选框）进行文本行的检测。下图能够很好地看出该模型的检测思路（注意：CTPN模型其实是在feature map上生成proposals，而不是在原图像上生成，如下只是个示意图）：

3、CTPN技术原理

CTPN模型利用了RNN和CNN的无缝结合来提升检测精度。其中，CNN用来提取深度特征，RNN用于序列的特征识别，两者无缝结合，在检测上性能更好。其中：

（1）CNN（采用VGG16）

CTPN模型经过利用VGG16卷积输出的 feature map（特征图）生成一系列proposals（预选框）进行检测。VGG是卷积神经网络的经典模型，具体原理可详见本公众号以前发布的文章：白话卷积神经网络（VGGNet）

（2）RNN

因为文字信息是由“字符、字符的一部分、多字符”组成的一个序列，因此文字这个检测目标并非独立、封闭的，而是有先后关联的，所以在CTPN中采用了RNN（Recurrent Neural Networks，循环神经网络）来利用先后文的信息进行文本位置的预测。关于RNN的介绍详见本公众号以前发布的文章：白话循环神经网络（RNN）

CTPN模型的网络结构以下图所示：

整个过程主要分为六个步骤：

第一步：输入3×600(h)×900(w)的图像，使用VGG16进行特征的提取，获得conv5_3（VGG第5个block的第三个卷积层）的特征做为feature map，大小为512×38×57；

第二步：在这个feature map上作滑窗，窗口大小是3×3，即512×38×57变为4608×38×57（512按3×3卷积展开）；

第三步：将每一行的全部窗口对应的特征输入到RNN（BLSTM，双向LSTM）中，每一个LSTM层是128个隐层，即57×38×4608变为57×38×128，Reverse-LSTM一样获得的是57×38×128，合并后最终获得结果为 256×38×57；

第四步：将RNN的结果输入到FC层（全链接层），FC层是一个256×512的矩阵参数，获得512×38×57的结果；

第五步：FC层特征输入到三个分类或者回归层中。第一个2k vertical coordinate和第三个k side-refinement是用来回归k个anchor的位置信息（能够简单理解为是要肯定字符位置的小的矩形框，上面示意图中的红色小长框，宽度固定，默认为16），第二个2k scores 表示的是k个anchor的类别信息（是字符或不是字符）；

第六步：使用文本构造的算法，将获得的细长的矩形框，将其合并成文本的序列框。其中文本构造算法的主要的思路为：每两个相近的候选区组成一个pair，合并不一样的pair直到没法再合并为止。

以上就是CTPN主要原理的介绍，使用CTPN模型对天然场景下的文字进行检测，结果以下图所示：

4、小结

综上，CTPN模型最大的亮点是引入RNN来进行检测。先用CNN获得深度特征，而后用固定宽度的anchor（固定宽度的，细长的矩形框）来检测文本区域，将同一行anchor对应的特征串成序列，而后输入到RNN当中，再用全链接层来作分类或回归，最后将小的候选框进行合并，从而获得了文本所在的完整区域。这种把RNN和CNN无缝结合的方法有效地提升了检测精度。

墙裂建议

2016年，Zhi Tian 等人发表了关于CTPN的经典论文《Detecting Text in Natural Image with Connectionist Text Proposal Network》，在论文中详细介绍了CTPN的思想和技术原理，建议阅读该论文以进一步了解该模型。

关注本人公众号“大数据与人工智能Lab”（BigdataAILab），而后回复“论文”关键字可在线阅读经典论文的内容。

推荐相关阅读