【图像分割模型】BRNN下的RGB-D分割—LSTM-CF

这是专栏《图像分割模型》的第10篇文章。在这里,咱们将共同探索解决分割问题的主流网络结构和设计思想。web


深度信息的引入每每会给分割带来更好的结果。以前提到的ENet除了直接变成ReSeg分割网络,一样也能够结合RGB-D信息实现更准确的分割。面试


做者 | 孙叔桥算法

编辑 | 言有三数据库


本期论文微信

LSTM-CF: Unifying Context Modeling and Fusion with LSTMs for RGB-D Scene Labeling网络


1 RGB-D分割架构

前面咱们已经讨论过许多基于RGB信息的分割网络了,今天就来谈谈RGB-D分割。RGB-D分割中的D指的是“Depth”,即“深度”,也就是相机到物体在实际空间中的距离。框架


那么既然RGB信息已经可以实现分割,为何要用到深度信息呢?缘由很简单:引入深度信息后,其提供的额外结构信息可以有效辅助复杂和困难场景下的分割。好比,与室外场景相比,因为语义类别繁杂、遮挡严重、目标外观差别较大等缘由,室内场景的分割任务要更难实现。此时,在结合深度信息的状况下,可以有效下降分割的难度。学习


虽然道理容易,可是如何实现RGB-D分割仍是有些问题须要解决的:ui


  • 如何有效地表述和融合共存的深度和光度(RGB)数据

  • 如何在特征学习过程当中有效获取全局场景上下文


下面咱们就经过LSTM-CF网络结构来了解一下,如何实现RGB-D下的分割。


2 LSTM-CF

上一篇文章咱们已经介绍过了ReNet,这里简单回顾一下。ReNet是经过在两个正交方向上级联应用RNN来获取图像中的2D依赖项。ReNet的具体实现方式以下图所示:

基于ReNet,LSTM-CF利用长短期记忆和DeepLab实现分割。LSTM-DF主要包括四个部分:用于竖直深度上下文提取的层,用于竖直光度上下文提取的层,用于整合光度和深度上下文成2D全局上下文的记忆融合层,和像素级场景分割层。


下图是LSTM-CF网络模型:

输入深度信息后,LSTM-CF利用HHA描述,将深度信息转换成视差、表面法线和高这三个通道的信息。随后,利用ReNet提取不一样方向上的上下文信息,并在两个方向进行双向传播。


与此同时,对于RGB通道信息,网络利用如上图所示的卷积结构提取特征,利用插值将各级特征恢复到相同分辨率下,并级联。以后,一样利用ReNet获取上下文信息。


细心的读者可能注意到了,RGB通道比深度通道多出了两层。这是由于,考虑到光度图像比离散、稀疏的深度图像包含的信息多,网络对光度图像分支给予更多的关注。


归纳起来,LSTM-CF的分割流程能够总结为下图的形式:


3 实验结果

为了验证深度信息和长短信息记忆等模块对于分割任务的影响,LSTM-CF对网络结构进行了剥离实验。下图是实验结果:

可见,分割的主要精度仍是来源于RGB信息的,可是引入了深度信息和上下文信息后,网络的精度可以获得必定的提高。


下图是LSTM-CF在SUNRGBD数据库下的实验结果:

第一行为图像,第二行为真值,第三行为LSTM-CF分割结果


若是想了解更多,欢迎加入图像分割星球

总结


通过10期的介绍,语义分割问题上应该了解的基础网络结构就基本说完了。下一期咱们来聊聊与语义分割稍有差别的实例分割网络结构。


本周直播(点击图片跳转)


今日看图猜技术


今日知识汇总



有三AI生态


更多精彩内容请关注知乎专栏《有三AI学院》


转载文章请后台联系

侵权必究



往期精选


本文分享自微信公众号 - 有三AI(yanyousan_ai)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索