全链接的话权重太多git
padding的存在是由于咱们作卷积操做的时候会引起数据急剧减小,padding能够解决github
步长的设置问题
p = (n*s - n + f - s) / 2
When s = 1 ==> P = (f-1) / 2算法
卷积层也有长、宽和通道数,其中卷基层的通道数须要和图像一致windows
一个探测器在某个部分有用那么在另外一个部分也极可能有用网络
每一层中,每一个输出值只和部分的输入有关ide
为了识别32321
Conv ==> Pool ==> Conv ==> Pool ==> FC ==> FC ==> softmaxsvg
Conv => Max-pool => Conv => Max-pool => Conv => Conv => Conv => Max-pool ==> Flatten ==> FC ==> FC ==> Softmax函数
如上图,实际上就是在网络中加入了一些shortcut性能
这个是保持不变的学习
就是用了残差单元的网络
加入了易于学到的线性映射
1*1的卷积单元,也叫network in network
这种结构在如下状况下有用:
Inception的基本思想是:在网络的构造中,咱们不是去选择使用什么层(好比说是11的卷积仍是33的卷积仍是pooling等),而是把它们都用上,让算法本身选
很容易想到这个时候计算量会很大,因此通常会采用1*1的卷积层来下降计算量。而且实践代表这种对于性能影响很小。
图像可使用翻转、截取、颜色变换等技巧进行数据加强
作object detection咱们不光要在标签给出类别,还要给出bounding box的位置
Y = [ Pc # Probability of an object is presented bx # Bounding box by # Bounding box bh # Bounding box bw # Bounding box c1 # The classes c2 … ]
L(y',y) = { (y1'-y1)^2 + (y2'-y2)^2 + … if y1 = 1 (y1'-y1)^2 if y1 = 0 }
对于某些应用,如人脸检测的时候,你但愿把眼睛位置一块儿标记出来,这时候就能够在label中把这些坐标也加进去
简单的说就是你选个窗口大小,而后按照必定重复进行划窗,选用分类器对这些进行分类,而后合并一些有物体重复的窗,最后选出来最佳的窗格。
对于传统算法通常选择线性分类器,这样的话速度才够。可是这样精度不太好,深度学习则复杂度会过高。因此通常有两种方案:
本质上就是将传统卷积网的最后的全链接层也换成是卷积层,而后其实就能够一块儿把移动窗口作了
先把图像分块,而后每一个地方用上面的卷积滑动窗口预测获得窗口
IoU,即评价detection的方式,等于交集除以并集
如上图,红色的是真实值,紫色的是预测值,而后能够计算
若是IoU> 0.5就说明表现还不错
用前面的方法咱们能够会屡次检测到同一个物体,这个方法能够解决这个问题
若是有多个类别,咱们就须要重复以上屡次
上面的技巧只能解决单个物体,若是有多个重合的物体就会比较难办。
anchor box感受上就是把多个单个的box链接起来。也可使用聚类的方式来作
YOLO算法其实就是综合用了上面的这些技巧
首先用基于卷积的移动窗口
移除预测几率低的
移除IoU低的
YOLO在识别小物体时效果不是太好
其余的检测算法还有R-CNN、SSD等
verification就是给你一我的和他的id,判断是否是这我的。recognition就是给一我的的图片,若是他是库中k我的之一就输出其id
从这我的的一张图片就可以学习出识别他的系统。这个实际上是基于类似度函数。即我经过一个网络抽取特征(这个网络是提早训练好的),而后比较新来的人的特征和这里的是否是吻合。也能够直接预训练一个分类器
给定三个图片A(目标图片)、P(正样本)、N(负样本)
L(A, P, N) = max (||f(A) - f(P)||2 - ||f(A) - f(N)||2 + alpha , 0)
获得特征算距离
这个问题其实有两方面意义:
这里的损失函数是经过style cost function和content cost function
用来衡量生成的图像G和原始内容提供图像C之间的不一样,这里经过训练好的神经网络来衡量两个图像content的类似度。其基本想法是,神经网络的每一层能够提取图像的一些特征,那么我用图片在某一层的激活值就能够表示图像的内容。而后两个图像C和G都通过这个神经网络取同一层就能够了(这里通常是取中间层的结果,我猜想是太浅的话不能抓住足够的信息,太深的话就过于细节化了而不会和风格迁移;而后最终通常也是算几层取个加权平均,而在content里面则不会取平均)。最后loss表示为:
用来衡量生成的图像G和风格提供图像S之间的风格的不一样。基本思想是首先对于每一幅图构建一个 style matrix(数学上叫作Gram matrix),而后比较这两个matrix的差距,计算公式以下
模型的构建遵循:Create->Compile->Fit/Train->Evaluate/Test
https://github.com/mbadry1/DeepLearning.ai-Summary