RTFNet:基于可见光/红外图像的城市自动驾驶道路场景语义分割

点击上方“3D视觉工坊”,选择“星标”git

干货第一时间送达github

论文下载:https://yuxiangsun.github.io/pub/RAL2019_rtfnet.pdf算法

代码下载:https://github.com/yuxiangsun/RT微信

简介:网络

语义分割是自动驾驶车辆的一项基本功能。随着深度学习技术的发展,近年来出现了许多有效的语义分割网络。然而,大多数相机用来获取可见光的RGB图像。在不知足的光照条件下,RGB图像的质量容易下降;例如,光线的暗度和亮度,这对仅使用RGB图像的网络是严峻的挑战。不一样于可见光相机,热成像相机是利用热辐射产生产生热图像,可以在各类光照条件下看到东西。与可见光相机不一样的是,可见光的光谱范围在0.4到0.7微米之间,它们利用温度高于绝对零度的全部物质发出的热辐射来成像。它的价格要比普通相机贵上好几倍,但要比激光雷达便宜的多,最初是为军事用途而发明的,但近年来价格有所降低。所以,这种摄像机能够愈来愈多地应用于民用领域,如遥感、自主监控和高级驱动辅助系统(ADAS)等。app

动机:性能

为自动驾驶汽车实现稳健和准确的城市景观语义划分。其核心思想是利用热相机的优点,融合RGB和热信息,以实现优越的性能。学习

设计理念:测试

本文采用了编码器-解码器,利用两个编码器ResNet分别对RGB和Thermal图像进行特征提取。在编码阶段,多模态融合是经过RGB和Thermal编码器路径的特征块在元素上的累加来实现的。开发了一种叠堆块解码器来交替保留和增长空间分辨率,同时减小信道计数。优化

本文主要贡献:

1)开发了一种新的深度神经网络,它融合了RGB和热信息,用于城市场景的语义分割。

2)证实了利用热信息能够提升语义分割的性能。

3)将网络与公共数据集上的技术水平进行比较,得到了优越的性能。

方法:

以下图所示,RTFNet由三个模块组成:RGB编码器和Thermal编码器,分别用于提取RGB和热图像的特征;一种解码器,用于恢复特征图的分辨率。RTFNet中的解码器模块不是编码器模块的镜像版本。编码器和解码器是不对称设计的。设计了两个大的编码器和一个小的解码器。在RTFNet的最后,使用softmax层获得语义分割结果的几率图。

编码器:

编码器使用ResNet,去掉平均池和彻底链接的层做为特征提取器。热特征图被融合到RGB编码器经过元素的求和。该解码器共有5层,每层依次由Upception块A和b组成。图中是以输入为480×640的为例,层和块的输出分辨率如图所示。

解码器:

解码器的主要设计目的是获得和原始输入分辨率相同的密集预测。经过解码器,特征图的分辨率逐渐恢复到输入图像的分辨率。提出的Upception网络块,它由Upception block A和Upception block b两个子块组成。A块(左)保持分辨率和feature map通道数量不变; B块(右)增长了特征图的分辨率,减小了通道数量。详细结构以下图所示:

在A块(左)中,有3个卷积层,经过这3个层,特征通道的分辨率和数量都不发生变化。引入从第三批归一化层的输入到输出的shortcut(捷径/远跳)。输入和特征图是元素求和。在B块(右)中,第一卷积层(Conv1)保持分辨率不变,并将特征通道的数量减小2倍。第二卷积层(Conv2)保持特征通道的分辨率和数量不变。与块A类似,输入远跳(残差)到第三批归一化层。因为第一个转置卷积层(TransConv 1)保持通道的数量不变,并增长分辨率2倍,第二转置卷积层(TransConv 2)是须要增长分辨率和减小通道数。不然,特征图的形状将不匹配,没法进行求和操做。Upception块中的神经网络层的详细配置显示在下表中。

数据集的设置:

使用MFnet中发布的公共数据集,它使用InfReC R500相机记录了城市场景,能够同时传输RGB和热图像。数据集包含1569对RGB和thermal图像,其中白天820对,夜间749对。在ground truth中有9个手工标记的语义类,包括未标记的背景类。数据集中的图像分辨率为480×640。咱们采用[27]中提出的数据集拆分方案。训练集由50%的白天图像和50%的夜间图像组成。验证集由25%的白天图像和25%的夜间图像组成,其余图像用于测试。

评价指标:

采用两个度量标准来定量评价语义分割的性能。第一个是每一个类的准确性(Acc),也称为召回。第二个是每一个类的交并比 (IoU)。这两个度量的全部类的平均值分别表示为mAcc和mIoU。公式以下:

实验结果:

总的实验结果,包括白天和黑天都在一块儿计算的结果:

比较设计的两个模型RTFNet-50和RTFNet-152在mAcc指标下的结果:

白天黑天单独比较的结果以下:

可视化的样例结果图:

总结:

本文提出了一种基于热数据的城市场景语义分割网络。实验结果代表,该网络在各类场景下,甚至在具备挑战性的光照条件下都具备优越性。不管如何,将来仍有几个问题须要解决。首先,推理速度较低,特别是在嵌入平台上,重点是嵌入式平台的优化。其次,网络分割出的目标边界不够清晰。为了产生清晰的边界并保留更详细的信息,将使用short-cut将低级特征映射引入高级特征映射。最后,在某些状况下,RGB图像或热图像可能比其余图像更能提供信息。例如,对于具备类似温度的物体,热象将提供较少的信息,这将是热象机的一个不利方面。对贡献较少的信息给予较低的权重或彻底丢弃它将有利于筛选。在将来,将发展判别机制,以发现更有信息量的数据。

本文仅作学术分享,若有侵权,请联系删文。

推荐阅读

重磅!3DCVer-学术论文写做投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写做与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写做与投稿事宜。

同时也可申请加入咱们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,不然不予经过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各种大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打形成集技术与就业为一体的铁杆粉丝汇集区,近1000+星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

 圈里有高质量教程资料、可答疑解惑、助你高效解决问题