CNN浅显的基础知识

时间 2019-11-09

标签 cnn 浅显基础知识繁體版

原文原文链接

"检测","识别"和"分类"容易混淆用错网络
- 检测:指物体在哪里(bounding box),是什么物体.解决的是where,what
- 分类: 是什么物体(区别于检测,分类是已知有bounding box),以及给出几率:image/Video classification;Segmentation(instance segmentation,sementic segmentation,像素级别的分类.)
- 识别:是谁. 区别于分类.好比人脸识别,不可能把不一样的人都分别当成一种种类进行分类.识别和分类的区别在于处理方式的不一样,识别是使用特征向量进行处理的.
model: 本质就是一大堆非线性函数的参数(paramers).ide
train: 就是找到这些paramers的过程函数
损失函数:io
- 训练过程梯度爆炸--loss 短期内迅速上升.
- loss 降低很是慢,震荡向下,最终也会收敛,第一反应是learning rate 设置小了点.
- 训练最终可能只是获得局部最优解,全局最优解很难达到.
为何神经网络(neural network) 须要激活函数(activation function)?function
- 无论是sigmod(用于二分类),relu(cnn),softmax(多分类),都是为了模型能起到拟合非线性关系的函数.若是没有激活函数,神经网络也只是能拟合线性关系的函数(hypotheses),能拟合的状况很是少.
向后传播(back propagation): -是指网络最终的loss function 的向后传递class
- 目的是减小计算量,每一层网络都去单独去计算损失函数,计算量很是大.
- 实现方式为chain Rule,但这种传播方式也会很容易致使梯度爆炸,由于是不少个多项式相乘.
正则化(regularization):神经网络
- 目的:神经网络拟合能力太强,很容易出现过拟合(train loss 很是低,其它数据的loss 高)的状况,正则化就是用来防止过拟合的.
- 如何实现:损失函数的计算中加入惩罚项,这样最终求导更新的参数权值变小,那么hypotheses曲线会区域平滑,让过拟合状况减小.
- 有L1,L2 regularization. L1有特征选择的做用,由于获得的权值容易为0.