卷积在深度学习中的做用(转自http://timdettmers.com/2015/03/26/convolution-deep-learning/)

卷积多是如今深刻学习中最重要的概念。卷积网络和卷积网络将深度学习推向了几乎全部机器学习任务的最前沿。可是,卷积如此强大呢?它是如何工做的?在这篇博客文章中,我将解释卷积并将其与其余概念联系起来,以帮助您完全理解卷积。git

 

已经有一些关于深度学习卷积的博客文章,但我发现他们都对没必要要的数学细节高度混淆,这些细节没有以任何有意义的方式进一步理解。这篇博客文章也会有不少数学细节,但我会从概念的角度来看待他们,在这里我用每一个人都应该可以理解的图像表示底层数学。这篇博文的第一部分是针对任何想要了解深度学习中卷积和卷积网络的通常概念的人。本博文的第二部分包含高级概念,旨在进一步提升深度学习研究人员和专家对卷积的理解。github

什么是卷积?

这整篇博文都将回答这个问题,可是首先了解这个问题的方向可能会很是有用,那么什么是粗略的卷积?算法

您能够将卷积想象为信息的混合。想象一下,有两个桶装满了信息,这些信息被倒入一个桶中,而后按照特定的规则混合。每桶信息都有本身的配方,用于描述一个桶中的信息如何与另外一个桶混合。所以,卷积是一个有序的过程,两个信息来源交织在一块儿。网络

卷积也能够用数学来描述,事实上,它是一种数学运算,如加法,乘法或导数,虽然这种操做自己很复杂,但它能够用来简化更复杂的方程。卷积在物理学和工程学中用于简化这种复杂的方程,第二部分 - 通过简短的卷积数学发展 - 咱们将把这些科学领域和深度学习之间的想法联系起来并整合起来,以更深刻地理解卷积。但如今咱们将从实际的角度来看卷积。架构

咱们如何对图像应用卷积?

当咱们对图像应用卷积时,咱们将其应用于两个维度 - 即图像的宽度和高度。咱们混合两个信息桶:第一个桶是输入图像,它总共有三个像素矩阵 - 每一个矩阵用于红色,蓝色和绿色通道; 一个像素由每一个颜色通道中0到255之间的整数值组成。第二个桶是卷积核,一个浮点数的单个矩阵,其中模式和数字的大小能够被认为是如何在卷积操做中将输入图像与内核交织在一块儿的配方。内核的输出是通过改变的图像,在深度学习中常常被称为特征图。每一个颜色通道都会有一个功能图。dom

卷积

图像与边缘检测器卷积核的卷积。来源:2机器学习

咱们如今经过卷积执行这两个信息的实际交织。应用卷积的一种方法是从内核大小的输入图像中获取图像补丁 - 这里咱们有一个100×100图像和一个3×3内核,因此咱们须要3×3补丁 - 而后执行与图像补丁和卷积核的元素明智的乘法。这个乘法的和而后致使   特征映射的一个像素。在计算了特征映射的一个像素以后,图像块提取器的中心将一个像素滑动到另外一个方向,而且重复该计算。当以这种方式计算了特征映射的全部像素时,计算结束。如下gif中的一个图像补丁说明了此过程。ide

经过操做图像补丁来计算卷积。

对结果特征映射的一个像素进行卷积运算:原始图像(RAM)的一个图像块(红色)与内核相乘,而且其总和被写入特征映射像素(缓冲区RAM)。GIF格伦·威廉姆森谁运行一个网站,具备许多技术GIF格式。函数

正如你所看到的,还有一个规范化过程,其中输出值经过内核的大小(9)进行归一化; 这是为了确保图片和特征地图的总强度保持不变。布局

为何图像的卷积有用于机器学习?

图像中可能存在不少使人分心的信息,这与咱们试图实现的目标无关。一个很好的例子就是我Burda Bootcamp中Jannek Thomas一块儿完成的一个项目Burda Bootcamp是一个快速原型开发实验室,学生在黑客马拉松式的环境中工做,以很是短的时间间隔创造技术上有风险的产品。与个人9位同事一块儿,咱们在2个月内建立了11款产品。在一个项目中,我想用深度自动编码器创建时尚图像搜索:您上传时尚物品的图像,自动编码器应找到包含类似风格衣服的图像。

如今,若是你想区分衣服的风格,衣服的颜色不会那么有用; 像品牌标志等微小的细节也不是很重要。最重要的多是衣服的形状。一般,衬衫的形状与衬衫,外套或裤子的形状很是不一样。所以,若是咱们能够过滤图像中没必要要的信息,那么咱们的算法不会被颜色和品牌标志等没必要要的细节分散注意力。咱们能够经过使用内核来卷积图像来轻松实现这一点。

个人同事Jannek Thomas对数据进行了预处理,并应用了一个Sobel边缘检测器(相似于上面的内核)将除图像外形外的全部图像都滤除掉 - 这就是为何卷积应用一般称为滤波,内核一般被称为过滤器(这个过滤过程的更精确的定义将在下面进行说明)。若是您想要区分不一样类型的衣服,因为只保留相关的形状信息,因此从边缘检测器内核生成的特征图将很是有用。

autoencoder_fashion_features_and_results

Sobel过滤了训练过的自动编码器的输入和结果:左上角的图像是搜索查询,其余图像是具备自动编码器代码的结果,该代码与经过余弦类似度测量的搜索查询最类似。你会发现autoencoder真的只是看着搜索查询的形状而不是它的颜色。可是,您也能够看到,对于穿着衣服的人(第5列)的图像以及对衣架形状(第4列)敏感,此步骤不起做用。

咱们能够更进一步:有几十个不一样的内核能够生成许多不一样的特征映射,例如使图像更清晰(更多细节),或模糊图像(更少的细节),而且每一个特征映射能够帮助咱们的算法在它的任务上作得更好(细节,好比夹克上的3而不是2个按钮可能很重要)。

使用这种过程 - 输入,转换输入并将转换后的输入提供给算法 - 称为特征工程。特征工程是很是困难的,只有不多的资源能够帮助你学习这个技巧。所以,不多有人可以巧妙地将特征工程应用于普遍的任务。特征工程是 - 手下来 - 在Kaggle比赛中得到好成绩的最重要的技能特征工程是如此的困难,由于对于每种类型的数据和每种类型的问题,不一样的特征都作得很好:图像任务的特征工程知识对于时间序列数据来讲是无用的; 即便咱们有两个类似的图像任务,但设计好的特征并不容易,由于图像中的对象也决定了什么会起做用,哪些不会起做用。这须要不少经验才能完成这一切。

因此特征工程是很是困难的,你必须从头开始为每一个新任务作好。可是当咱们看图像时,是否有可能自动找到最适合于任务的内核?

输入卷积网

卷积网正是这样作的。咱们没有在内核中使用固定数字,而是将参数分配给这些内核,这些内核将在数据上进行训练。当咱们训练咱们的卷积网络时,内核在为给定相关信息过滤给定图像(或给定特征映射)方面会变得愈来愈好。这个过程是自动的,被称为特征学习。特征学习自动地推广到每一个新任务:咱们只须要简单地训练咱们的网络以找到与新任务相关的新滤波器。这使得卷积网络如此强大 - 特征工程没有困难!

一般咱们不是在卷积网络中学习单个内核,而是在同一时间学习多个内核的层次结构。例如,应用于256×256图像的32x16x16内核将生成32个尺寸为241×241的特征映射(这是标准尺寸,尺寸可能因实现而异;{\ mbox {image size}  -  \ mbox {kernel size} + 1})。所以,咱们自动学习了32个新功能,这些功能为咱们的任务提供了相关信息。而后这些功能为下一个内核提供输入,以便再次过滤输入。一旦咱们学习了分层特征,咱们只需将它们传递给一个彻底链接的简单神经网络,将它们结合起来,以便将输入图像分类为类。这几乎是全部关于卷积网络在概念层面上的知识(池化过程也很重要,但那将是另外一篇博客文章)。

第二部分:高级概念

咱们如今对卷积是什么以及卷积网络发生了什么以及卷积网络如此强大的缘由有了很好的直觉。可是咱们能够深刻了解一个卷积操做中真正发生的事情。在这样作的时候,咱们会看到计算卷积的最初解释是至关麻烦的,咱们能够开发更复杂的解释,这将有助于咱们更普遍地考虑卷积,以便咱们能够将它们应用于许多不一样的数据。为了更深刻地理解,第一步是理解卷积定理。

卷积定理

为了进一步发展卷积的概念,咱们利用了卷积定理,该卷积定理将时域/空域中的卷积(其中卷积的特征是难以积分的积分或和)与频率/傅立叶域中的单纯元素乘法相关联。这个定理很是强大,被普遍应用于许多科学领域。卷积定理也是缘由之一快速傅立叶变换(FFT)算法是由一些人认为的20中最重要的算法之一世纪。

卷积定理

第一个方程是两个通常连续函数的一维连续卷积定理; 第二个方程是离散图像数据的二维离散卷积定理。这里{\ otimes}表示卷积运算,{\ mathcal {F}}表示傅里叶变换,{\ mathcal {F} ^ { -  1}}傅里叶逆变换,而且{\ SQRT {2 \ PI}}是归一化常数。请注意,这里的“离散”意味着咱们的数据由可计数的变量(像素)组成; 和1D意味着咱们的变量能够以一种有意义的方式在一个维度上进行布局,例如时间是一维的(一秒钟一个接一个),图像是二维的(像素有行和列),视频是三维的(像素有行和列,图像一个接一个地出现)。

为了更好地理解卷积定理中会发生什么,咱们如今来看看关于数字图像处理的傅里叶变换的解释。

快速傅立叶变换

快速傅里叶变换是一种将数据从空间/时间域转换为频率域或傅立叶域的算法。傅里叶变换用相似波浪的余弦和正弦项来描述原始函数。重要的是要注意,傅立叶变换一般是复数值,这意味着一个真实的值被转换成一个具备实部和虚部的复数值。一般虚部只对某些操做很重要,并将频率转换回空间/时间范围,在本篇博文中大部分将被忽略。在下面,您能够看到一个可视化如何经过傅立叶变换来转换信号(一般具备时间参数的信息的函数,一般是周期性的)。

Fourier_transform_time_and_frequency_domains

时域(红色)转换到频域(蓝色)。资源

您可能不知道这一点,但极可能您天天都会看到傅里叶变换值:若是红色信号是歌曲,那么蓝色值多是您的MP3播放器显示的均衡器条。

图像的傅里叶域

傅立叶变换

Fisher&Koryllos的图像(1998)鲍勃费舍尔还运行一个关于傅立叶变换和通常图像处理的优秀网站

咱们怎样才能想象图像的频率?想象一张纸上面有两种图案之一。如今想象一下,波从纸的一个边缘传播到另外一个波,这个波在每一个特定颜色的条纹穿透纸张而且在另外一个上方盘旋。这种波以特定的间隔穿透黑色和白色部分,例如每两个像素 - 这表明了频率。在傅立叶变换中,较低的频率靠近中心,较高的频率位于边缘(图像的最大频率处于边缘)。具备高强度(图像中的白色)的傅立叶变换值的位置根据原始图像中强度最大变化的方向排序。

fourier_direction_detection

Fisher&Koryllos的图像(1998)资源

咱们当即看到傅里叶变换包含了不少关于图像中物体方向的信息。若是一个物体被转过37度,则很难从原始像素信息中判断出来,可是傅里叶变换后的值很清楚。

这是一个重要的看法:因为卷积定理,咱们能够想象,卷积网络对傅立叶域中的图像起做用,而且从上面的图像咱们如今知道该域中的图像包含大量关于方向的信息。所以,卷积网络在旋转图像时应该优于传统算法,事实确实如此(虽然当咱们将它们与人类视觉进行比较时,卷积网络仍然很是糟糕)。

频率滤波和卷积

卷积运算常常被描述为一个滤波操做,以及为何卷积核一般被命名为滤波器的缘由将从下一个例子中看出,这个例子很是接近卷积。

Fisher&Koryllos的图像(1998)资源

若是咱们用傅立叶变换对原始图像进行变换,而后将它乘以由傅里叶域中的零填充的圆圈(零=黑色),咱们会过滤掉全部高频值(它们将被设置为零,由于零填充值)。请注意,滤波后的图像仍然具备相同的条纹图案,但其质量如今更糟 - 这是jpeg压缩的工做原理(尽管使用了不一样但类似的变换),咱们转换图像,仅保留某些频率并转换回空间图像域; 在这个例子中,压缩比将是黑色区域与圆圈大小的大小。

若是咱们如今想象这个圆是一个卷积核,那么咱们就彻底有了卷积 - 就像在卷积网中同样。还有不少技巧能够加速并稳定用傅里叶变换计算卷积,但这是如何完成的基本原理。

如今咱们已经确立了卷积定理和傅里叶变换的意义,如今咱们能够将这种理解应用到科学的不一样领域,并加强咱们对深度学习中卷积的解释。

来自流体力学的看法

流体力学关注于为流体如空气和水的流动(飞机周围的空气流动;水在桥的悬挂部分周围流动)建立微分方程模型。傅里叶变换不只简化了卷积,并且还简化了差分,这就是为何傅里叶变换普遍用于流体力学领域或任何具备微分方程的领域。有时,找到流体流动问题的分析解决方案的惟一方法是用傅立叶变换来简化偏微分方程。在这个过程当中,咱们有时能够用两个函数的卷积来重写这种偏微分方程的解,这样就能够很容易地解释解。一维扩散方程就是这种状况,

扩散

经过用外力移动液体(用勺子搅拌),能够混合两种液体(牛奶和咖啡) - 这就是所谓的对流,一般速度很是快。可是你也能够等待,两种流体会本身混合(若是它是化学可能的话) - 这就是所谓的扩散,与对流相比一般很是缓慢。

想象一下,水族馆由一个薄而可拆卸的屏障分红两部分,其中水族箱的一侧充满咸水,另外一侧充满淡水。若是您如今仔细地移除薄壁屏障,两种流体将混合在一块儿,直到整个水族箱处处都有相同浓度的盐。这个过程更加“猛烈”,淡水和咸水之间的咸味差别越大。

如今想象你有一个方形的水族箱,有256×256的薄壁屏障,分隔256×256立方体,每一个立方体含有不一样的盐浓度。若是如今去除屏障,两个立方体之间几乎没有混合,盐浓度差别很小,但两个立方体之间的盐混合浓度很是不一样。如今想象一下,256×256网格是一个图像,立方体是像素,盐浓度是每一个像素的强度。如今咱们不用扩散盐浓度,而是扩散了像素信息。

事实证实,这只是扩散方程解法卷积的一部分:一部分简单地说就是某个区域某一流体的初始浓度 - 或者图像方面 - 初始图像的初始像素强度。为了完成将卷积解释为扩散过程,咱们须要解释扩散方程的解的第二部分:传播子。

解释传播者

传播者是几率密度函数,它表示流体粒子在哪一个方向随时间扩散。这里的问题是咱们在深度学习中没有几率函数,可是卷积核 - 咱们如何统一这些概念?

咱们能够应用一个归一化,将卷积核变成几率密度函数。这就像计算分类任务中输出值的softmax同样。这里是上面第一个例子中边缘检测器内核的softmax归一化。

SOFTMAX

边缘检测器的Softmax:为计算softmax标准化,咱们将内核的每一个值[latex background =“ffffff”] {x} [/ latex]并应用[latex background =“ffffff”] {e ^ x} [ /胶乳]。以后,咱们除以全部[latex background =“ffffff”] {e ^ x} [/ latex]的总和。请注意,这种计算softmax的技术对于大多数卷积核是很好的,但对于更复杂的数据,计算有点不一样以确保数值稳定性(对于很是大和很是小的值,浮点计算固有地不稳定,您必须在这种状况下仔细导航周围的麻烦)。

如今咱们对扩散方面的图像进行卷积的全面解释。咱们能够将卷积运算想象成一个两部分扩散过程:首先,像素强度发生变化的强扩散(从黑色到白色,或从黄色到蓝色等),其次,区域中的扩散过程受到调节经过卷积核的几率分布。这意味着内核区域中的每一个像素根据内核几率密度扩散到内核中的另外一个位置。

对于上面的边缘检测器,几乎周围区域的全部信息都集中在一个空间中(这对流体中的扩散是不天然的,可是这种解释在数学上是正确的)。例如,全部低于0.0001值的像素将极可能流入中心像素并在那里累积。在相邻像素之间的最大差别处最终浓度将是最大的,由于这里扩散过程是最明显的。反过来,相邻像素的最大差别就在那里,在不一样对象之间的边缘处,因此这解释了为何上面的内核是边缘检测器。

因此咱们有它:卷积做为信息的扩散。咱们能够直接在其余内核上应用这种解释。有时咱们必须应用softmax标准化来解释,但一般这些数字自己会说明会发生什么。如下面的内核为例。你如今能够解释内核在作什么了吗?点击这里 找到解决方案(有一个连接回到这个位置)。

softmax_quiz

等等,这里有点可疑

若是咱们有一个具备几率的卷积核,咱们怎么会有肯定性行为?根据传播者的说法,咱们必须根据内核的几率分布来解释单粒子扩散,不是吗?

是的,这确实是事实。然而,若是你摄取一小部分液体,好比说一小滴水,那么在这小小的水滴中仍然有数以百万计的水分子,而根据传播者的几率分布,单个分子随机表现出来,一束分子具备准确的肯定性行为 - 这是统计力学的重要解释,所以也是流体力学中的扩散。咱们能够将传播者的几率解释为信息或像素强度的平均分布; 所以,从流体力学的观点来看,咱们的解释是正确的。可是,卷积也有一个有效的随机解释。

量子力学的看法

传播者是量子力学中的一个重要概念。在量子力学中,一个粒子能够处于一个叠加的位置,它有两个或更多的属性,这些属性一般会在咱们的经验世界中排除本身:例如,在量子力学中,一个粒子能够同时在两个地方 - 这是一个单一的对象两个地方。

可是,当您测量粒子的状态时(例如粒子如今在哪里)时,它会在一个地方或另外一个地方。换句话说,经过观察粒子来破坏叠加态。传播者而后描述你能够指望粒子的几率分布。所以,在测量以后,根据传播者的几率分布,粒子可能在A处具备30%的几率而且在B处具备70%的几率。

若是咱们有颗粒纠缠(在必定距离的鬼影行为),一些粒子能够同时容纳数百乃至数百万个不一样的状态 - 这是量子计算机承诺的力量。

因此若是咱们将这种解释用于深度学习,咱们能够认为图像中的像素处于叠加状态,所以在每一个图像块中,每一个像素同时在9个位置(若是咱们的内核是3×3 )。一旦咱们应用了卷积,咱们就进行了一次测量,每一个像素的叠加就像卷积核的几率分布所描述的那样折叠成一个单独的位置,或者换句话说:对于每一个像素,咱们随机选择9个像素中的一个像素(具备内核的几率)而且所获得的像素是全部这些像素的平均值。为了这种解释是真实的,这须要是一个真正的随机过程,这意味着,相同的图像和相同的内核一般会产生不一样的结果。这种解释并非一对一地与卷积相关,但它可能会让你思考如何以随机方式应用卷积或如何开发卷积网络的量子算法。量子算法将可以计算全部可能的组合由内核用一次计算描述,并以线性时间/量子位的方式描述图像和内核的大小。

来自几率论的看法

卷积与互相关密切相关。互相关是一种操做,它须要一小段信息(一首歌的几秒钟)来过滤大量信息(整首歌)的类似性(在YouTube上使用相似的技术来自动为视频版权侵权标记) 。

互相关和卷积之间的关系:这里[latex背景=“ffffff”] {\ star} [/ latex]表示互相关和[latex background =“ffffff”] {f ^ *} [/ latex]表示复共轭[latex background =“ffffff”] {f} [/ latex]。

虽然交叉相关看起来很笨拙,但咱们能够轻松将其与深度学习中的卷积联系起来:咱们能够简单地将搜索图像颠倒过来以经过卷积执行互相关。当咱们执行人脸图像与脸部上方图像的卷积时,结果将是脸部与人物匹配位置处的一个或多个明亮像素的图像。

crosscorrelation_Example

经过卷积进行互相关:输入和内核用零填充,内核旋转180度。白点标记图像和内核之间最强的像素相关性的区域。请注意,输出图像位于空间域中,逆傅立叶变换已应用。图片来自史蒂文史密斯关于数字信号处理的优秀免费在线书籍

这个例子还说明了用零填充来稳定傅里叶变换,这在许多版本的傅立叶变换中都是必需的。有一些版本须要不一样的填充方案:有些实现会在内核周围扭转内核,只须要填充内核,而其余实现则执行分而治之的步骤,而且根本不须要填充。我不会在此扩展; 关于傅立叶变换的文献是巨大的,而且有许多技巧可让它运行得更好 - 特别是对于图像。

在较低层次上,卷积网络将不会执行互相关,由于咱们知道它们在最初的卷积层中执行边缘检测。可是在后面的层次中,更多的抽象特征被生成,卷积网络有可能经过卷积学习执行互相关。能够想象,来自互相关的明亮像素将被重定向到检测面部的单位(Google大脑项目在其架构中有一些专用于面部,猫等的单元;也许互相关在这里起做用?) 。

来自统计的看法

统计模型和机器学习模型有什么区别?统计模型一般集中在不多的变量上,这些变量很容易解释。统计模型的创建是为了回答问题:药物A比药物B好吗?

机器学习模型与预测性能有关:药物A对于年龄为X的人增长17.83%的成功结果,对于年龄为Y的人,药物B增长22.34%。

机器学习模型一般比统计模型更有效,但它们不可靠。统计模型对于得出准确可靠的结论很是重要:即便药物A比药物B好17.83%,咱们也不知道这是不是偶然的缘由; 咱们须要统计模型来肯定这一点。

时间序列数据的两个重要统计模型是加权移动平均数和自回归模型,它们能够组合成ARIMA模型(自回归积分移动平均模型)。与长期短时间递归神经网络等模型相比,ARIMA模型至关薄弱,但当您的维度数据较低时(1-5维),ARIMA模型很是稳健。虽然他们的解释一般很费力,但ARIMA模型不像深度学习算法那样是一个黑盒子,若是您须要很是可靠的模型,这是一个很大的优点。

事实证实,咱们能够将这些模型重写为卷积,所以咱们能够证实深度学习中的卷积能够解释为产生局部ARIMA特征的函数,而后传递到下一层。然而,这个想法并无彻底重叠,因此咱们必须保持谨慎,而且看看咱们什么时候可以实施这个想法。

autoregression_weighted_average

{C(\ {MBOX内核})}是一个之内核为参数的常量函数; 白噪声是具备平均零的数据,标准误差为1,而且每一个变量相对于其余变量不相关。

当咱们对数据进行预处理时,咱们一般将其与白噪声很是类似:咱们常常将它置于零点附近,并将方差/标准误差设置为1。建立不相关变量的用处不大,由于它的计算密集程度很高,但从概念上讲,它很简单:咱们沿着数据的特征向量从新定位坐标轴。

eigenvector_decorrelation

经过沿着特征向量重定向的解相关:这些数据的特征向量由箭头表示。若是咱们想解相关数据,咱们调整轴的方向与特征向量具备相同的方向。这种技术也用于PCA中,其中具备最小方差(最短特征向量)的维度在重定向后被丢弃。

如今,若是咱们认为  {C(\ {MBOX内核})}是偏见,那么咱们有一个表达式,它与深度学习中的卷积很是类似。所以,若是咱们将数据预处理为白噪声,卷积层的输出能够被解释为来自自回归模型的输出。

加权移动平均数的解释很简单:它只是一些具备必定权重(内核)的数据(输入)的标准卷积。当咱们查看页面末尾的高斯平滑内核时,这种解释变得更加清晰。高斯平滑核能够被解释为每一个像素的邻域中的像素的加权平均值,或者换句话说,像素在其邻域中被平均(像素“融入”,边缘被平滑)。

虽然单个内核不能同时建立自回归和加权移动平均特征,但咱们一般拥有多个内核,而且全部这些内核均可能包含一些特征,如加权移动平均模型和一些相似自回归模型的特征。

结论

在这篇博文中,咱们已经看到卷积是什么以及为何它在深度学习中如此强大。图像补丁的解释很容易理解而且容易计算,可是它有许多概念上的限制。咱们经过傅里叶变换开发了卷积,而且看到傅立叶变换包含大量关于图像方向的信息。 随着强大的卷积定理,咱们开发了卷积解释做为跨像素信息的扩散。而后,咱们从量子力学的角度扩展传播者的概念,以接受一般肯定性过程的随机解释。咱们发现互相关与卷积很是类似,而且卷积网络的性能可能取决于经过卷积诱导的特征映射之间的相关性。最后,咱们完成了卷积与自回归和移动平均模型的关联。

就我我的而言,我发如今这篇博客文章中工做很是有趣。我感受好久之前,个人数学和统计学本科学习以某种方式被浪费了,由于他们太不切实际了(即便我学习应用数学)。但后来 - 像一个新兴的财产 - 全部这些思想联系在一块儿,实际上有用的理解出现了。我认为这是一个很好的例子,为何一我的应该耐心,仔细研究全部的大学课程 - 即便他们起初彷佛毫无用处。

convolution_quiz

上述测验的解决方案:信息在全部像素中扩散几乎相等; 对于相差较大的相邻像素,这个过程将更增强大。这意味着锐利的边缘将被平滑,而且在一个像素中的信息将扩散并与周围的像素轻微混合。这个核被称为高斯模糊或高斯平滑。继续阅读来源:2

图片来源参考

RB Fisher,K. Koryllos,“互动教材; 在文本中嵌入图像处理操做员演示“,Int。J.of Pattern Recognition and Artificial Intelligence,Vol 12,No 8,pp 1095-1123,1998。

 

 

参考资料:

conv_arithmetic

A guide to convolution arithmetic for deep

相关文章
相关标签/搜索