2017/7/20 朱兴全教授学术讲座观点与总结第二讲:单个神经元/单层神经网络

1、神经网络的结构算法

 

 

习惯的强势:能量最小化   大脑控制区在人对某一个事情造成习惯后,在该事情发生时,做出判断时再也不消耗能量。(能量最小化与偏差最小化?我想知道这里的能量与通常的能量函数之间有没有什么联系的地方?)网络

 

前向网络:网络中只有输入到输出的链接(下面给出单层和多层前向网络)函数

 

 

非隐藏层中能够比较指望输出与真实输出(注意观察最后一层的独立性,各个输出对权重的调整互不影响)性能

 

Why RNN?学习

 

先后顺序有相关性,时间顺序之间相关性,例如:文本分析。测试

 

神经网络(结构、神经元、学习算法)大数据

 神经元spa

神经元是神经网络中基本的信息处理单元,包括①一系列链接的权重Wi,②加法函数计算输入与权重的和,③激活函数:限制神经元的输出值大小(为何要限制大小呢?)3d

激活函数blog

 

第一种是二值化,能够用于分类。第二种能够求导可是不连续。第三种是能够求导。

 

 

学习算法(重点)

  • 错误纠正(感知机)
  • 梯度降低(BP)
  • competitive learning(self organizing maps)

何时考虑神经网络?

 

 

 


2、单层神经网络

只考了一个神经元的训练,多个神经元的训练相似,只是输出不一样

 

 

一、感知机训练规则  不保证得到最优曲线,只保证得到可区分的状况

 

 

缺点:

一、不断修改,不断抖动(遇到不符合即刻修改)

二、线性不可分问题不能解决

三、正确样本在划分正确之后就没有再利用(指望正确分类的那些好的性质也能够利用起来)

四、错误划分的错误程度没有计入考虑之中(不一样程度考虑方案不一样)

 

二、梯度降低学习法则

梯度迭代,权重更新沿梯度反方向

平方偏差偏差来构造二次方程(二次方程有全局最小值),二次函数前面的1/2主要是为了求导方便

缺点:按所有样本(一次计算出全部样本的状况,对ΔW进行累加)的ΔW来更改权重,计算量大。

 

选择学习率η要充分小,太大的时候容易越过最优势。

 

 

三、Incremental stochastic gradient descent 随机选择样本进行迭代

两种方式

第一种选择部分子集替代全部集合进行梯度迭代,这个时候也存在风险,有部分集合一直属于错分状态,没有利用到。第二种是在计算存在ΔW不为0的时候,就开始进行更新权重,迭代速度加快。

 

 学习规则的对比:

模型性能的验证

训练集和测试集的分割

  • 随机分割
  • 交叉验证:注意保证每个小集合的分布与大数据集的分布要保持一致,同时每个集合既要做为测试集也要做为训练集,如把集合分为A分为A一、A二、A3三个部分,这三个部分要与A的分布近似,分别选择三次,选择A一、A2做为训练集,A3做为测试集;选择A二、A3做为训练集,A1做为测试集;选择A三、A1做为训练集,A2做为测试集。
相关文章
相关标签/搜索