RTFNet：基于可见光/红外图像的城市自动驾驶道路场景语义分割

时间 2020-07-14 标签 rtfnet 基于可见光红外图像城市自动驾驶道路场景语义分割

点击上方“3D视觉工坊”，选择“星标”git

干货第一时间送达github

论文下载：https://yuxiangsun.github.io/pub/RAL2019_rtfnet.pdf算法

代码下载：https://github.com/yuxiangsun/RT微信

简介：网络

语义分割是自动驾驶车辆的一项基本功能。随着深度学习技术的发展，近年来出现了许多有效的语义分割网络。然而，大多数相机用来获取可见光的RGB图像。在不知足的光照条件下，RGB图像的质量容易下降；例如，光线的暗度和亮度，这对仅使用RGB图像的网络是严峻的挑战。不一样于可见光相机，热成像相机是利用热辐射产生产生热图像，可以在各类光照条件下看到东西。与可见光相机不一样的是，可见光的光谱范围在0.4到0.7微米之间，它们利用温度高于绝对零度的全部物质发出的热辐射来成像。它的价格要比普通相机贵上好几倍，但要比激光雷达便宜的多，最初是为军事用途而发明的，但近年来价格有所降低。所以，这种摄像机能够愈来愈多地应用于民用领域，如遥感、自主监控和高级驱动辅助系统(ADAS)等。app

动机：性能

为自动驾驶汽车实现稳健和准确的城市景观语义划分。其核心思想是利用热相机的优点，融合RGB和热信息，以实现优越的性能。学习

设计理念：测试

本文采用了编码器-解码器，利用两个编码器ResNet分别对RGB和Thermal图像进行特征提取。在编码阶段，多模态融合是经过RGB和Thermal编码器路径的特征块在元素上的累加来实现的。开发了一种叠堆块解码器来交替保留和增长空间分辨率，同时减小信道计数。优化

本文主要贡献：

1）开发了一种新的深度神经网络，它融合了RGB和热信息，用于城市场景的语义分割。

2）证实了利用热信息能够提升语义分割的性能。

3）将网络与公共数据集上的技术水平进行比较，得到了优越的性能。

方法：

以下图所示，RTFNet由三个模块组成：RGB编码器和Thermal编码器，分别用于提取RGB和热图像的特征；一种解码器，用于恢复特征图的分辨率。RTFNet中的解码器模块不是编码器模块的镜像版本。编码器和解码器是不对称设计的。设计了两个大的编码器和一个小的解码器。在RTFNet的最后，使用softmax层获得语义分割结果的几率图。

编码器：

编码器使用ResNet，去掉平均池和彻底链接的层做为特征提取器。热特征图被融合到RGB编码器经过元素的求和。该解码器共有5层，每层依次由Upception块A和b组成。图中是以输入为480×640的为例，层和块的输出分辨率如图所示。

解码器：

解码器的主要设计目的是获得和原始输入分辨率相同的密集预测。经过解码器，特征图的分辨率逐渐恢复到输入图像的分辨率。提出的Upception网络块，它由Upception block A和Upception block b两个子块组成。A块（左）保持分辨率和feature map通道数量不变; B块（右）增长了特征图的分辨率，减小了通道数量。详细结构以下图所示：

在A块（左）中，有3个卷积层，经过这3个层，特征通道的分辨率和数量都不发生变化。引入从第三批归一化层的输入到输出的shortcut（捷径/远跳）。输入和特征图是元素求和。在B块（右）中，第一卷积层(Conv1)保持分辨率不变，并将特征通道的数量减小2倍。第二卷积层(Conv2)保持特征通道的分辨率和数量不变。与块A类似，输入远跳（残差）到第三批归一化层。因为第一个转置卷积层(TransConv 1)保持通道的数量不变，并增长分辨率2倍，第二转置卷积层(TransConv 2)是须要增长分辨率和减小通道数。不然，特征图的形状将不匹配，没法进行求和操做。Upception块中的神经网络层的详细配置显示在下表中。

数据集的设置：

使用MFnet中发布的公共数据集，它使用InfReC R500相机记录了城市场景，能够同时传输RGB和热图像。数据集包含1569对RGB和thermal图像，其中白天820对，夜间749对。在ground truth中有9个手工标记的语义类，包括未标记的背景类。数据集中的图像分辨率为480×640。咱们采用[27]中提出的数据集拆分方案。训练集由50%的白天图像和50%的夜间图像组成。验证集由25%的白天图像和25%的夜间图像组成，其余图像用于测试。

评价指标：

采用两个度量标准来定量评价语义分割的性能。第一个是每一个类的准确性(Acc)，也称为召回。第二个是每一个类的交并比 (IoU)。这两个度量的全部类的平均值分别表示为mAcc和mIoU。公式以下：

实验结果：

总的实验结果，包括白天和黑天都在一块儿计算的结果：

比较设计的两个模型RTFNet-50和RTFNet-152在mAcc指标下的结果：

白天黑天单独比较的结果以下：

可视化的样例结果图：

总结：

本文提出了一种基于热数据的城市场景语义分割网络。实验结果代表，该网络在各类场景下，甚至在具备挑战性的光照条件下都具备优越性。不管如何，将来仍有几个问题须要解决。首先，推理速度较低，特别是在嵌入平台上，重点是嵌入式平台的优化。其次，网络分割出的目标边界不够清晰。为了产生清晰的边界并保留更详细的信息，将使用short-cut将低级特征映射引入高级特征映射。最后，在某些状况下，RGB图像或热图像可能比其余图像更能提供信息。例如，对于具备类似温度的物体，热象将提供较少的信息，这将是热象机的一个不利方面。对贡献较少的信息给予较低的权重或彻底丢弃它将有利于筛选。在将来，将发展判别机制，以发现更有信息量的数据。

本文仅作学术分享，若有侵权，请联系删文。

推荐阅读：

重磅！3DCVer-学术论文写做投稿交流群已成立
扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写做与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写做与投稿事宜。
同时也可申请加入咱们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，不然不予经过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各种大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打形成集技术与就业为一体的铁杆粉丝汇集区，近1000+星球成员为创造更好的AI世界共同进步，知识星球入口：

RTFNet：基于可见光/红外图像的城市自动驾驶道路场景语义分割

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款 圈里有高质量教程资料、可答疑解惑、助你高效解决问题

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题