基于神经网络的颜色恒常性—Fully Convolutional Color Constancy with Confidence-weighted Pooling

 论文地址:html

http://openaccess.thecvf.com/content_cvpr_2017/papers/Hu_FC4_Fully_Convolutional_CVPR_2017_paper.pdfpython

源代码(Python):git

https://github.com/yuanming-hu/fc4github

 

1、    任务描述网络

网络的主要目的是可以对偏色的图片估计光源,从而移除偏色,恢复图片真实颜色。为知足此类网络训练要求,须要数据集中不只包括图片且须要提供图片的真实光源数据。架构

 

2、    数据集框架

解释网络原理前,先下载数据集并了解数据集,有助于后面原理的理解python2.7

数据集(Shi's Re-processing of Gehler's Raw Dataset):工具

http://www.cs.sfu.ca/~colour/data/shi_gehler/学习

下载的文件包括:

png_canon1d.zip

png_canon5d_1.zip

png_canon5d_2.zip

png_canon5d_3.zip

groundtruth_568.zip;

其中,前四个文件夹中是图片,最后一个文件夹中包括对应图片的光照数据。

下载后,将全部图片放入一个文件夹中,一共有568张图片

注:568张图片是16位RAW图像,电脑图片查看工具通常是8位的,因此显示纯黑

 

利用Python代码进行图片格式转换(训练时中并不须要此步骤),能够看到图片真实效果(借助下载文件中保存了真实光源文件real_illum_568.mat),效果以下图(8D5U5525.png):

               

                 (16bit RAW原图)                                                  (8bit 图)

 代码以下:

 

3、    网络原理

  先看整个网络的结构图:

 

1) 网络结构:

   论文使用全卷积网络,代替了全链接层,能够接受任意图像尺寸的输入 ,固然,训练时,输入仍是须要归一化到大体至关的尺寸,保持统一尺度。同时,代码中使用SqueezeNet网络代替AlexNet网络,相较于AlexNet网络,SqueezeNet更轻量级,在保持同等分类精准率的前提下,模型参数缩小了50部。

 

2)输入图片

    从上述网络框架图中看到输入图片‘input image’的w和h,并非原始图片的大小,在此项目中w*h=512*512,即一个patch。

而512*512输入图片的产生原理:选择边长比例为【0.1~1】范围内随机值乘以原始图像的较短边,以此大小生成正方形裁剪框;以【-30°~+30°】范围内随机的角度值旋转原始图像,接着,从上述旋转操做结束后获得的图像中随机选择一点做为该方形裁剪框的左上角并开始裁剪,调整裁剪下来的图片大小到512*512。为了加强数据效果,512*512的图片可进行随机的上、下和左、右翻转,且,利用【0.6~1.4】中随机值调整图片RGB值及其光照信息(基于原始光照ground truth值),这样即完成了数据预处理工做,获得输入图片。

注:上述中涉及的数值都可在源代码文件config.py中进行动态设置

 

3)架构解析

   首先,能够在ImageNet上预训练SqueezeNet,而对于分类做用的SqueezeNet网络提取到的是图片的语义信息,且光照不敏感的;论文中对网络结构进行改造,使用SqueezeNet的前5层卷积层,即输入的结构是:512*512*3,通过SqueezeNet的5层卷积层后获得的结构是:15*15*512;而语义信息会做为区分不一样照度的置信权重,语义信息越多的,可认为其权重越大,越能影响决定最终光照。

  接着,通过conv6和conv7两个卷积层降维后,结构变成:15*15*4;假设这样规定:通过conv7后获得的4通道数据中包括照明估计的三个颜色通道,第四通道为置信度权重c.

  至此,能够看出FC4采用了一种选择机制,选择图像中的哪些色块用于估计,避免语义不明确的色块影响照度估计;网络中采用更大的带有更多的语义patch(以往论文中大可能是32*32大小的patch),利用FC网络共享特性将局部估计结合到全局中,同时,利用置信度权重,能够将监督信号仅派发给训练期间具备语义的区域;简单来讲:就是先估计全部局部区域的光源,接着聚合全部局部区域的光源信息造成最终结果。注:局部区域并非一个patch,是其子集

  若是但愿预测的精度越高,则能够提供更多的patch,其覆盖率越高,精度天然也会更高,但效率会变低。

 

4)损失值计算

首先,先看下如何计算网络获得光源估计值,参照论文中的公式:

     

      patch的照度估计值   

     :Ri区域的权重值

    :Ri区域的照度估计值

补充,基于上述公式的特色,源代码中conv7提供了两种结构方案:

①    conv7:1*1*3,直接只输出非标准化的R,G,B,并简单地取和和归一化,使用长度进行加权计算。

②    conv7:1*1*4,输出归一化的RGB颜色通道和权重通道,如同上面公式中进行加权求和。

    若是假设真实光照值,则计算损失值的公式以下:

  

 

经过不断地迭代训练,优化损失值,得出最终照度估计值,做用于输入图片上,即完成了网络的目的,获得‘去偏色’图片。

 

4、    网络复现

1) 复现SqueezeNet

做者提供了SqueezeNet在ImageNet上预训练的模型文件model.pkl,版本是python2.7的,若是您的环境也是如此,则不须要复现SqueezeNet,若是不是,能够按照下面步骤进行复现

Github: https://github.com/DeepScale/SqueezeNet

SqueezeNet网络Caffe版本的地址,能够下载进行训练,其复现方式能够参考https://www.cnblogs.com/wangyong/p/8616939.html,这里就省略具体过程了。

训练结束后,能够获得后缀为.caffemodel的模型文件,依据源代码中需求将.caffemodel文件转换为.pkl文件,python代码以下:

将生成的squeeze_net.pkl替换源代码中的data/squeeze_net文件夹下的model.pkl

 

2)   图片预处理

数据集是一共568张RAW格式的图片,附带每张图片的真实光源信息,同时,在下载的源代码中,还有每张图片中的Macbeth Color Checker(颜色检查器)的坐标信息文件。

做者将568张图片分红了三批,以进行三重交叉验证,加强网络训练效果,其中:

第一批:189张图片

第二批:191张图片

第三批:188张图片

由于FCN网络会学习到图片中的颜色信息做为语义来影响照度估计,因此,须要将图片中颜色丰富的color checker去掉以避免干扰结果,做者的作法是根据color checker的坐标信息,将其位置处像素置黑,去除干扰。

最后,生成三个后缀为.pkl的文件,关于细节能够参看源代码文件datasets.py

 

3) 训练和测试网络

依据做者在Github上的说明,能够按照其步骤进行训练和测试;下面是我测试出来的图片效果,复现了仅有三个输出类别的SuqeezeNet网络

 

做为一枚技术小白,写这篇笔记的时候参考了不少博客论文,在这里表示感谢,同时,转载请注明出处......

相关文章
相关标签/搜索