大话文本检测经典模型:SegLink

在天然场景中,例如灯箱广告牌、产品包装盒、商标等,要检测出其中的文字会面临着各类复杂的状况,例如角度倾斜、变形等状况,这时就须要使用基于深度学习的方法进行文字检测。在以前的文章中,介绍了基于卷积神经网络和循环神经网络的CTPN文本检测方法(见文章:大话文本检测经典模型 CTPN),该方法能在天然场景下较好地实现对文字的检测,但在CTPN中给出的文本检测效果是基于水平方向的,对于非水平的文本检测效果并很差,而在天然场景中,不少的文本信息都是带有必定的旋转角度的,例如用手机拍街道上的指示牌,以下图。若是文本检测的结果只有水平方向的,没有带角度信息,那么下图指示牌检测出来的就是红色框结果,而其实绿色框才是理想的检测目标,可见检测的结果偏差太大。算法

 

那要怎样才能实现对各类角度的灵活检测呢?一个最直接的思路就是让模型不只能学习和输出边框的位置(x, y, w, h),还要能输出一个文本框的旋转角度参数θ。本文要介绍的文本检测模型SegLink,即是采用了这个思路,也即SegLink检测模型能检测有旋转角度的文本,以下图:网络

1、SegLink模型的主要思想架构

SegLink模型的检测过程主要以下:分布式

一、首先是检测生成一个一个的segment(切片),如上图黄色框,这些segment(切片)是文本行(或单词)的一部分,多是一个字符,或者是一个单词,或者是几个字符函数

二、经过link(连接)将属于同一个文本行(或者单词)的segment(切片)链接起来,如上图绿色线条。link(连接)是在两个有重叠segment的中心点进行相连,以下图oop

三、经过合并算法,将这些segment(切片)、link(连接)合并成一个完整的文本行,得出完整文本行的检测框位置和旋转角度。学习

 

其中,segment(切片)、link(连接)是SegLink模型的创新之处,该模型不但学习了segment的位置信息,也学习了segment之间的link关系,以表示是否属于同一文本行(或者单词)。大数据

 

2、SegLink模型的网络结构人工智能

SegLink模型的网络结构以下:spa

该模型以VGG16做为网络的主要骨干,将其中的全链接层(fc6, fc7)替换成卷积层(conv6, conv7),后面再接上4个卷积层(conv8, conv9, conv10, conv11),其中,将conv4_3,conv7,conv8_2,conv9_2,conv10_2,conv11这6个层的feature map(特征图)拿出来作卷积获得segments(切片)和links(连接)。这6个层的feature map(特征图)尺寸是不一样的,每一层的尺寸只有前一层的一半,从这6个不一样尺寸的层上获得segment和link,就能够实现对不一样尺寸文本行的检测了(大的feature map擅长检测小物体,小的feature map擅长检测大物体)。

一、segment检测

整个架构采起了SSD的思路,在segment(切片)检测上,与SSD模型检测过程相似,经过“套框”的方式,对结果进行回归,每一个feature map(特征图)通过卷积后输出的通道数为7,其中两个表示segment是否为文字的置信度值为(0, 1),剩下的五个为segment相对于对应位置的default box的五个偏移量。每一个segment表示为:

二、link检测

在segment与segment的link(连接)方面,主要存在两种状况,一种是层内连接检测、另外一种是跨层连接检测。以下图:

其中,层内连接检测表示同一特征层,每一个segment与8邻域内的segment的链接情况,每一个link有两个分数:正分、负分,正分表示两者属于同一个文本(应该链接);负分表示两者属于不一样文本(应该断开链接)。而跨层连接检测,主要是为了解决同一文本的segment在不一样层被检测到,形成重复检测、冗余的问题,在相邻两层的feature map上,后面那层的segment的邻居除了是本层的邻居外,在前一层也有它的邻居,但后一层却不是前一层的邻居,在后面的合并算法中会将这种冗余消除掉。

三、合并算法

合并算法的思想以下:

  • 将同一行的segment取出来
  • 对这些segment的中心点做最小二乘法线性回归,获得一条直线
  • 每一个segment的中心点往这条直线作垂直投影
  • 从全部投影点中取出距离最远的两个点,记为(xp,yp)、(xq,yq)
  • 那么最终合并的文本框,(1)中心点位置为( (xp+xq)/2 , (yp+yq)/2 ),(2)宽度为两个最远的点(xp,yp)、(xq,yq)的距离加上所在segment宽度的一半(Wp/2 + Wq/2),(3)高度为全部segment的高度平均值

 

以下图所示,中间橙色直线表示最小二乘法回归后的直线,红点表示segment的中心点,黄点表示红点在直线上的垂直投影,绿色边框就是通过以上合并算法处理后的完整本文框。

 

3、小结

SegLink增长了角度的检测,对于各类角度的文本检测具备很强的鲁棒性,而CTPN主要用于检测水平的文本行,以下图所示:

但该模型也存在不足之处,例如不能检测间隔很大的文本行,由于相邻segment之间主要是经过link来链接,文本相距太远时就会效果很差。另外,不能检测形变或者曲线文本,这是由于最后在作合并算法时采用的是线性回归的方式,只能拟合直线,没法拟合曲线,但也能够经过修改合并算法,来实现对变形、曲线文本的检测。

 

墙裂建议

2017年,Baoguang Shi 等人发表了关于SegLink的经典论文《 Detecting Oriented Text in Natural Images by Linking Segments 》,在论文中详细介绍了SegLink的技术原理,建议阅读该论文以进一步了解该模型。

 

关注本人公众号“大数据与人工智能Lab”(BigdataAILab),而后回复“论文”关键字可在线阅读经典论文的内容

 

推荐相关阅读

相关文章
相关标签/搜索