Riche, N., Mancas, M., Duvinage, M., Mibulumukini, M., Gosselin, B., & Dutoit, T. (2013). RARE2012: A multi-scale rarity-based saliency detection with its comparative statistical analysis. Signal Processing: Image Communication, 28(6), 642–658. https://doi.org/10.1016/j.image.2013.03.009
一篇老早老早之前的文章啦,今天看到有文章使用它的方法,特意拜读下。
视觉注意力机制这东西咱们感兴趣,那就是由于它有用呀。好比帮助人机交互界面优化,让用户使用交互按钮更加舒服;广告设计的评估;视频图像数据压缩,着重保留更感兴趣的图像信息。机器人的视觉感知等等吧。
关于人类的视觉注意力的通用定义,不知道如今生物学上有没有研究明白这是怎么回事,反正在这篇文章发表的时候是没有滴。可是通常意义上讲,人类的注意力能够定义为对传入刺激进行优先排序并有选择地关注其中一部分的天然能力。行,有个初步的定义也好呀。那视觉上的注意力咋搞呢,大脑接收到的图像信号并不仅是一个待排序的信号序列呀。
在计算机视觉中,对注意力机制的探索大部分依赖于“saliency maps”这一律念,字面意思就是“显著性图”。简单来说,“saliency maps”就是对某一个模型的输入信号作了一个映射,映射的结果就是,对模型比较重要的信号会获得一个较强的相应。
那么对于视觉注意力机制来说,输入就是图像;人眼容易被吸引的地方就是比较重要的信号。因此,解释视觉注意力机制,就是想找到一个更好的“saliency maps”。它应该迅速的根据输入图像告诉咱们,那些地方对咱们的视觉感知系统很是有吸引力。
按照这样的思路,“saliency maps”中就包含了两种机制。一种是自下而上的注意力,也称为刺激驱动的或外在的注意力。另外一种是自上而下的,也称为任务驱动的或内生的注意力,它集成了观察者在特定状况下可能具备的特定知识(任务,场景类型的模型,可识别的对象等)。而RARE2012纯粹是自下而上的,由于自下而上的方法性能更好。就是彻底依靠输入图像信息,不须要考虑其余决策机制,固然性能更好辣。
文章对比了当年流行的好几种 方法,结论就是他们的方法挺好。哈哈哈
-------------------------------------------------------------------------------------------
第一步:首先用主成分分析PCA的方法,把rgb三通道的图像映射到三个线性不相关空间。就是拆分红了三个通道,这三个通道中,channal1主要包含亮度信息,而channal2和channal3则包含色度的信息。可是三个通道的信息都是独立的。看起来它的三个通道有点像hsv嘛,hsv就是明度、色调和饱和度。不过具体怎样分解的我不知道哦,还要看源码,文章中没说。
第二步:对三个通道的图像直接用PCA计算rarity。哎,这里仍是得看源码,对图像进行主成分分析获得降维我能够理解,那上边用PCA方法拆分通道是咋回事呢?无论如何,这样作获得了三张rarity分布图。这样作就是在提取图像中的低级颜色特征,固然也包括亮度分布特征。
第三步:而后再对上述三个通道图像利用Gabor滤波器提取方向特征图。选择Gabor滤波器是由于Gabor相似于大脑中视觉皮层(V1)的简单神经处理过程。
Gabor与人类视觉系统中简单细胞的视觉刺激响应很是类似。它在提取目标的局部空间和频率域信息方面具备良好的特性。Gabor小波对于图像的边缘敏感,可以提供良好的方向选择和尺度选择特性,并且对于光照变化不敏感,可以提供对光照变化良好的适应性。
用Gabor 函数造成的二维Gabor 滤波器具备在空间域和频率域同时取得最优局部化的特性,所以可以很好地描述对应于空间频率(尺度)、空间位置及方向选择性的局部结构信息。Gabor就是用来提取图像中的空间方向和纹理特征。
文章中对Gabor分别输入8个方向,这样对于一幅输入图像来说,一共会有8个结果。这8幅输出要融合到1张输出图像中。
根据EC大小对8张方向图排序。每张方向图都乘以权重:i/N 。N=8,i就是这张方向图的EC排第几位。文中设了一个阈值,筛选掉EC过小的方向图:
这样PCA方法获得的三张图像channal一、channal2和channal3通过Gabor提取到了3幅纹理方向的rarity图。
-------------------------------------------------------------------------------------------
这一阶段的稀有度机制才是rare2012的关键,毕竟名字就是这个嘛。
方法就是:统计在设定的尺度范围内,该像素出现的频率。
n_i 是当前像素j的灰度值为i的几率(比例),
n_i 就是根据rarity图的直方图获得的。这个公式说的有点不明不白的,S是啥?看起来是没有归一化的rarity图中的灰度最大值。无论怎样,它的思想就是统计图像中某一灰度出现的频率,认为是某一个灰度在局部区域出现的几率。这就是该像素的注意力得分,就是Attention()。
Fig. 2中给出了一个例子,输入左图,蓝色的区域在整幅图像中出现的几率较低,那么它在稀有度图中的值就偏高。
第二阶段中,对第一阶段获得的6张map计算attention。
-------------------------------------------------------------------------------------------
对第二阶段获得的6张attention map进行融合操做。
首先是通道内融合,由channal1获得的颜色特征图和纹理方向图计算attention后,进行融合。融合方法为:
就是EC和map点乘。这里出现了S哦,不过它是否是公式5中的S呢,这个要看下源码,论文中没说。N=2,为啥是2,哪里来的两张图,也不明白。
先无论这些地方,看最后,rare2012是如何获得最终的输出的:
根据第三阶段的融合操做,三个通道的图像最后输出了三个结果。
这三个结果再融合起来,就是最后的输出了。融合的方法就是第一阶段的第三步,融合gabor后的8张图像的方法。首先计算效率系数,而后排序,而后乘权重,阈值筛选。
rare2012是由rare2007和rare2011发展而来,每一次改进都带来的一些创新。性能更好,考虑的特征更全面。俺么rare2012结果如何?
对比结果中,上面是眼动监测的结果,也就是人眼实际的聚焦状况。下面是rare2012的结果。看起来挺好的嘛。
可是rare2012有时也有彻底出错的时候。fig7中后面三个数据的结果,rare2012都错了。看来注意力机制仍是要引入充分合理的自上而下的逻辑判断。
不过rare2012在当年对比同类模型,仍是至关有优点的。固然论文中有定量的性能和准确率分析。