2017/7/20 朱兴全教授学术讲座观点与总结第二讲：单个神经元/单层神经网络

时间 2019-12-11

标签教授学术讲座观点总结第二单个神经元单层神经网络繁體版

原文原文链接

1、神经网络的结构算法

习惯的强势：能量最小化 大脑控制区在人对某一个事情造成习惯后，在该事情发生时，做出判断时再也不消耗能量。（能量最小化与偏差最小化？我想知道这里的能量与通常的能量函数之间有没有什么联系的地方？）网络

前向网络：网络中只有输入到输出的链接（下面给出单层和多层前向网络）函数

非隐藏层中能够比较指望输出与真实输出（注意观察最后一层的独立性，各个输出对权重的调整互不影响）性能

Why RNN？学习

先后顺序有相关性，时间顺序之间相关性，例如：文本分析。测试

神经网络（结构、神经元、学习算法）大数据

神经元spa

神经元是神经网络中基本的信息处理单元，包括①一系列链接的权重W_i，②加法函数计算输入与权重的和，③激活函数：限制神经元的输出值大小（为何要限制大小呢？）3d

激活函数blog

第一种是二值化，能够用于分类。第二种能够求导可是不连续。第三种是能够求导。

学习算法（重点）

何时考虑神经网络？

2、单层神经网络

只考了一个神经元的训练，多个神经元的训练相似，只是输出不一样

一、感知机训练规则不保证得到最优曲线，只保证得到可区分的状况

缺点：

一、不断修改，不断抖动（遇到不符合即刻修改）

二、线性不可分问题不能解决

三、正确样本在划分正确之后就没有再利用（指望正确分类的那些好的性质也能够利用起来）

四、错误划分的错误程度没有计入考虑之中（不一样程度考虑方案不一样）

二、梯度降低学习法则

梯度迭代，权重更新沿梯度反方向

平方偏差偏差来构造二次方程（二次方程有全局最小值），二次函数前面的1/2主要是为了求导方便

缺点：按所有样本（一次计算出全部样本的状况，对ΔW进行累加）的ΔW来更改权重，计算量大。

选择学习率η要充分小，太大的时候容易越过最优势。

三、Incremental stochastic gradient descent 随机选择样本进行迭代

两种方式

第一种选择部分子集替代全部集合进行梯度迭代，这个时候也存在风险，有部分集合一直属于错分状态，没有利用到。第二种是在计算存在ΔW不为0的时候，就开始进行更新权重，迭代速度加快。

学习规则的对比：

模型性能的验证

训练集和测试集的分割

随机分割
交叉验证：注意保证每个小集合的分布与大数据集的分布要保持一致，同时每个集合既要做为测试集也要做为训练集，如把集合分为A分为A一、A二、A3三个部分，这三个部分要与A的分布近似，分别选择三次，选择A一、A2做为训练集，A3做为测试集；选择A二、A3做为训练集，A1做为测试集；选择A三、A1做为训练集，A2做为测试集。