大话文本检测经典模型：SegLink

时间 2019-11-07

标签大话文本检测经典模型 seglink 繁體版

原文原文链接

在天然场景中，例如灯箱广告牌、产品包装盒、商标等，要检测出其中的文字会面临着各类复杂的状况，例如角度倾斜、变形等状况，这时就须要使用基于深度学习的方法进行文字检测。在以前的文章中，介绍了基于卷积神经网络和循环神经网络的CTPN文本检测方法（见文章：大话文本检测经典模型 CTPN），该方法能在天然场景下较好地实现对文字的检测，但在CTPN中给出的文本检测效果是基于水平方向的，对于非水平的文本检测效果并很差，而在天然场景中，不少的文本信息都是带有必定的旋转角度的，例如用手机拍街道上的指示牌，以下图。若是文本检测的结果只有水平方向的，没有带角度信息，那么下图指示牌检测出来的就是红色框结果，而其实绿色框才是理想的检测目标，可见检测的结果偏差太大。算法

那要怎样才能实现对各类角度的灵活检测呢？一个最直接的思路就是让模型不只能学习和输出边框的位置（x, y, w, h），还要能输出一个文本框的旋转角度参数θ。本文要介绍的文本检测模型SegLink，即是采用了这个思路，也即SegLink检测模型能检测有旋转角度的文本，以下图：网络

1、SegLink模型的主要思想架构

SegLink模型的检测过程主要以下：分布式

一、首先是检测生成一个一个的segment（切片），如上图黄色框，这些segment（切片）是文本行（或单词）的一部分，多是一个字符，或者是一个单词，或者是几个字符函数

二、经过link（连接）将属于同一个文本行（或者单词）的segment（切片）链接起来，如上图绿色线条。link（连接）是在两个有重叠segment的中心点进行相连，以下图oop

三、经过合并算法，将这些segment（切片）、link（连接）合并成一个完整的文本行，得出完整文本行的检测框位置和旋转角度。学习

其中，segment（切片）、link（连接）是SegLink模型的创新之处，该模型不但学习了segment的位置信息，也学习了segment之间的link关系，以表示是否属于同一文本行（或者单词）。大数据

2、SegLink模型的网络结构人工智能

SegLink模型的网络结构以下：spa

该模型以VGG16做为网络的主要骨干，将其中的全链接层（fc6, fc7）替换成卷积层（conv6, conv7），后面再接上4个卷积层（conv8, conv9, conv10, conv11），其中，将conv4_3，conv7，conv8_2，conv9_2，conv10_2，conv11这6个层的feature map（特征图）拿出来作卷积获得segments（切片）和links（连接）。这6个层的feature map（特征图）尺寸是不一样的，每一层的尺寸只有前一层的一半，从这6个不一样尺寸的层上获得segment和link，就能够实现对不一样尺寸文本行的检测了（大的feature map擅长检测小物体，小的feature map擅长检测大物体）。

一、segment检测

整个架构采起了SSD的思路，在segment（切片）检测上，与SSD模型检测过程相似，经过“套框”的方式，对结果进行回归，每一个feature map（特征图）通过卷积后输出的通道数为7，其中两个表示segment是否为文字的置信度值为（0, 1），剩下的五个为segment相对于对应位置的default box的五个偏移量。每一个segment表示为：

二、link检测

在segment与segment的link（连接）方面，主要存在两种状况，一种是层内连接检测、另外一种是跨层连接检测。以下图：

其中，层内连接检测表示同一特征层，每一个segment与8邻域内的segment的链接情况，每一个link有两个分数：正分、负分，正分表示两者属于同一个文本（应该链接）；负分表示两者属于不一样文本（应该断开链接）。而跨层连接检测，主要是为了解决同一文本的segment在不一样层被检测到，形成重复检测、冗余的问题，在相邻两层的feature map上，后面那层的segment的邻居除了是本层的邻居外，在前一层也有它的邻居，但后一层却不是前一层的邻居，在后面的合并算法中会将这种冗余消除掉。

三、合并算法

合并算法的思想以下：

将同一行的segment取出来
对这些segment的中心点做最小二乘法线性回归，获得一条直线
每一个segment的中心点往这条直线作垂直投影
从全部投影点中取出距离最远的两个点，记为（xp,yp）、（xq,yq）
那么最终合并的文本框，（1）中心点位置为( (xp+xq)/2 , (yp+yq)/2 )，（2）宽度为两个最远的点（xp,yp）、（xq,yq）的距离加上所在segment宽度的一半(Wp/2 + Wq/2)，（3）高度为全部segment的高度平均值

以下图所示，中间橙色直线表示最小二乘法回归后的直线，红点表示segment的中心点，黄点表示红点在直线上的垂直投影，绿色边框就是通过以上合并算法处理后的完整本文框。

3、小结

SegLink增长了角度的检测，对于各类角度的文本检测具备很强的鲁棒性，而CTPN主要用于检测水平的文本行，以下图所示：

但该模型也存在不足之处，例如不能检测间隔很大的文本行，由于相邻segment之间主要是经过link来链接，文本相距太远时就会效果很差。另外，不能检测形变或者曲线文本，这是由于最后在作合并算法时采用的是线性回归的方式，只能拟合直线，没法拟合曲线，但也能够经过修改合并算法，来实现对变形、曲线文本的检测。

墙裂建议

2017年，Baoguang Shi 等人发表了关于SegLink的经典论文《 Detecting Oriented Text in Natural Images by Linking Segments 》，在论文中详细介绍了SegLink的技术原理，建议阅读该论文以进一步了解该模型。

关注本人公众号“大数据与人工智能Lab”（BigdataAILab），而后回复“论文”关键字可在线阅读经典论文的内容。

推荐相关阅读