1、 图像语义分割模型DeepLab v3网络
随着计算机视觉的发展,语义分割成为了不少应用场景必不可少的一环。 好比网络直播有着实时剔除背景的要求,自动驾驶须要经过语义分割识别路面,与日俱增的应用场景对语义分割的精度和速度的要求不断提升。同时,语义分割数据集也在不断地进化,早期的Pascal VOC2,其分辨率大多数在1000像素如下。而Cityscape的语义分割数据集分辨率所有达到了1024*2048,总共5000张图片(精细标注),包含19类。这些数据集对研究者,计算设备,甚至框架都带来了更大的考验。框架
DeepLab v3+ 是DeepLab语义分割系列网络的最新做,其前做有 DeepLab v1,v2, v3, 在最新做中,Liang-Chieh Chen等人经过encoder-decoder进行多尺度信息的融合,同时保留了原来的空洞卷积和ASSP层, 其骨干网络使用了Xception模型,提升了语义分割的健壮性和运行速率。其在Pascal VOC上达到了 89.0% 的mIoU,在Cityscape上也取得了 82.1%的好成绩,下图展现了DeepLab v3+的基本结构4:函数
DeepLab v3+在主干网络以后链接了Encoder和Decoder,可以在扩大网络感觉的同时得到更加高清的分割结果。工具
在PaddlePaddle的模型库中已经包含了DeepLab v3+的训练以及测试的代码。咱们首先安装最新版本的PaddlePaddle而且下载PaddlePaddle的模型库:性能
当模型仓库成功克隆,你将能够在目录fluid/PaddleCV/deeplabv3+ 下看到用于训练以及测试的代码:学习
2、开始训练测试
当数据和代码都已经准备好,咱们能够开始训练了,训练的参数和指令以下:优化
在这个命令中,咱们没有使用任何预训练模型,从噪音开始训练DeepLab v3+。而且是直接使用全分辨率进行训练(1024x2048,batch size=1)。几个比较关键的参数解释以下:ui
环境变量CUDA_VISIBLE_DEVICES=0限制了训练过程仅使用一张GPU,若是存在多张GPU,能够经过修改参数来获得训练速度的提高。code
环境变量FLAGS_fraction_of_gpu_memory_to_use=0.99, 该环境变量将会让PaddlePaddle占用99%的显存,能够根据实际状况进行调节。
环境变量inplace_normalize=1,该参数是PaddlePaddle进行显存优化的关键,打开该开关将会让框架对normalize layer进行 inplace 操做来优化显存,如今支持的 normalize layer 有 group normalize。
环境变量fuse_relu_before_depthwise_conv=1,该参数是显存优化的另外一个关键参数。这个参数会融合relu和depthwise conv来优化显存。
参数--save_weights_path=$YOUR_SAVE_WEIGHTS_PATH, 这里你须要填入保存模型的路径。
参数--dataset_path=$YOUR_DATASET_PATH, 这里你须要填入数据集的路径。
3、空间时间消耗分析
根据打印出来的信息,咱们能够发现,PaddlePaddle在训练DeepLab v3+时,输入一张全分辨率的图片,显存消耗为10.2GB。得益于显存消耗小于11G,咱们可使用1080ti完成训练,训练中每次迭代速度约为0.85s。
咱们还可使用工具,分析DeepLab v3+各部分显存消耗状况:
在该图中,显存消耗最多的是主干网络,占用了68.1%,其次是decoder部分,占用了16.4%,以及encoder占用了5.3%,剩下其余部分为损失函数和数据预处理的显存消耗。
显存消耗最多的是主干网络,占用了68.1%,咱们能够继续查看主干网络内部显存消耗状况:
这个图展现了在主干网络中的显存消耗,Xception主干网络主要由三部分组成, EntryFlow,MiddleFlow,以及ExitFlow,能够发现显存消耗最大的是EntryFlow。
在上图中,咱们能够发现,尽管Xception主干网络层数最多的部分是MiddleFlow,可是显存消耗最大的倒是EntryFlow,这是由于在EntryFlow里的特征尚未被充分下采用,分辨率至关高,同时EntryFlow里的通道数也不容小觑,所以形成了EntryFlow巨大的显存开销,这也为咱们的优化指明了方向。
DeepLab v3+使用的主干网络 Xception, MiddleFlow中的分离卷积块重复了16次,层数相比较EntryFlow和ExitFlow要多得多,然而显存消耗最大的倒是EntryFlow。
框架对比
除开对网络内部的显存消耗进行分析,咱们还对不一样框架的显存消耗进行了对比,下表展现了PaddlePaddle和TensorFlow1.12的显存消耗以及性能对比,如下对比实验使用的输入数据是1024x2048全分辨率的图片,batch size为1,测试设备P40(24G):
4、优化原理
这里咱们采用的显存优化策略是 fuse_relu_before_depthwise_conv 和 inplace_normalize。顾名思义,fuse_relu_before_depthwise_conv 是讲relu和depthwise_conv融合为同一个operator, 达到显存的节省。而 inplace_normalize 则是使用原地操做来节省显存。在卷积神经网络中,conv+normalize+activation是常见模式,在这种模式下,使用这两种优化策略,能够节省3倍的显存。这两种优化策略概括起来就是操做融合和原地计算, 是显存优化中的常见策略, 对于不一样的框架经常须要耗费人力进行开发, 而咱们经过paddle的显存优化能够很轻松的实现这一点。 该优化图示以下:
在该图中,红框标注的data为会消耗显存的数据块,能够看到,经过inpalce和fuse两种操做,原来须要存储6个数据块,优化后仅仅须要2个数据块。
在上图中,咱们能够发现,inplace和fuse两种操做,都分别帮助咱们在每个conv+normalize+activation块中节省了1个数据块,因此显存节省的更多了,咱们的分割网络也能够消耗更少的显存资源。
总结
显存空间优化和时间优化同样,对空间消耗的压榨是没有止境的。层出不穷的模型,各类不一样的优化方式,都对框架提出了很高的要求,选择一款兼顾效果和性能的深度学习框架,每每可以让项目事半功倍。