1、概论
一、简述模式的概念和它的直观特性,解释什么是模式识别,同时绘出模式识别系统的组成框图,并说明各部分的主要功能特性。
对于存在于时间和空间中,可观察的物体,若是咱们能够区分它们是否相同或类似,均可以称之为“模式”(或“模式类”)。web
模式所指的不是事物自己,而是从事物中得到的信息。所以,模式经常表现为具备时间和空间分布的信息。算法
模式的直观特性包括:可观察性,可区分性,类似性。bootstrap
模式识别就是对模式的区分和认识,把对象根据其特征归到若干类别中的适当一类。网络
模式识别系统的组成框图以下图所示。一个模式识别系统一般包括:原始数据获取与预处理、特征提取与选择、分类或聚类、后处理四个步骤。app

监督模式识别过程可概括为五个基本步骤:分析问题、原始特征获取、特征提取与选择、分类器设计、分类决策。框架
非监督模式识别过程可概括为五个基本步骤:分析问题、原始特征获取、特征提取与选择、聚类分析、结果解释。机器学习
每部分说明略。svg
二、简述模式识别系统中模式处理的完整过程,和一个分类器的设计过程。
模式处理的完整过程可概括为:数据/信息获取与预处理、特征提取与选择、分类或聚类、后处理四个步骤。函数
在统计决策中,分类器设计的过程包括:样本(类条件)几率密度形式假定、参数或非参数密度估计、肯定准则函数、肯定决策规则。性能
在基于样本直接设计的分类器中,分类器设计过程包括:肯定判别函数类型(线性、二次、决策树、神经网络等)、肯定学习目标(准则函数)、肯定优化算法,在训练数据上学习分类器、在测试数据上评价分类器、解释分析。
三、给出机器学习问题的形式化表示,并解释学习机器的推广能力。
(1)机器学习的形式化表示
已知变量
y
与输入
x
之间存在必定的未知依赖关系,即存在一个未知的映射
F(x,y)
。
机器学习就是根据
n
个独立同分布的观测样本
(x1,y1),⋯,(xn,yn)
,在一组函数
f(x,ω)
中求一个最优的函数,使预测的指望风险
R(ω)=L(y,f(x,ω))dF(x,y)
最小。
其中
F(x,y)
表示全部可能出现的输入
x
与输出
y
的联合几率模型。
f(x,ω)
被称为预测函数集,
ω∈Ω
为函数的广义参数,故
f(x,ω)
能够表示任意函数集。
L(y,f(x,ω))
是使用
f(x,ω)
对
y
进行预测而形成的损失。
简而言之,机器学习,就是在一组设定的函数集中寻找使指望风险最小的最优函数。
(2)学习机器的推广能力
模式识别是一种基于数据的机器学习,学习的目的不只是要对训练样本正确分类,而是要可以对全部可能样本都正确分类,这种能力叫作推广能力。
四、区别于基于模型的模式识别方法(统计决策原理),基于数据的模式识别方法直接从样本设计分类器。从样本直接设计分类器,须要肯定哪些基本要素?
须要肯定三个基本要素:① 判别函数类型(函数集),② 学习目标(准则函数),③ 优化算法。
五、给定一组有类别标号(
M
类)的样本
x1,⋯,xN (xi∈Rd)
。现有两种特征提取方法
F1
和
F2
,和两种分类方法
C1
和
C2
。请设计一个实验方案,分别比较特征提取方法和分类方法的性能。写出详细实验过程。
采用 5-fold 交叉验证来评估
2、统计决策方法
一、简述多分类问题的最小错误率贝叶斯决策过程,并给出相应的最小分类错误率。
二、阐述最小风险贝叶斯决策原理和决策步骤,说明在什么状况下最小风险决策等价于最小错误率决策,并证实之。
(1)决策原理
最小风险贝叶斯决策的目标是,针对决策规则
α(x)
,最小化指望风险:
minαR(α)=∫R(α|x)p(x)dx
.
因为
R(α|x)
和
p(x)
非负,且
p(x)
已知,与
α
无关,于是最小风险贝叶斯决策就是:
若
R(αi|x)=minj=1,⋯,kR(αj|x)
,则
α=αi
.
其中
R(αi|x)=E[λij|x]=∑cj=1P(ωj|x), i=1,⋯,k
,
λij=λ(αi,ωj)
表示实际为
ωj
的向量决策为
αi
的损失,可从事先定义的决策表查得.
(2)决策步骤
① 计算后验几率:
P(ωj|x)=p(x|ωj)P(ωj)∑ci=1p(x|ωi)P(ωi)
.
② 利用决策表,计算条件风险:
R(αi|x)=∑cj=1λijP(ωj|x)
.
③ 决策:
α=argminiR(αi|x)
.
(3)等价关系
当
λii=0
且
λij=C (i≠j)
,其中
C
为某一常数时,最小风险贝叶斯决策等价于最小错误率贝叶斯决策。
证实:
知足上述条件时,条件风险
R(αi|x)=∑cj=1,j≠iCP(ωj|x)
.
则决策规则
α=argminiR(αi|x)
等价于:
α=argmini∑j≠iCP(ωj|x)=argminiCP(e|x)=argmaxiP(ωi|x)
.
所以,最小风险贝叶斯决策等价于最小错误率贝叶斯决策。
三、简述 Neyman-Pearson 决策原理。
Neyman-Pearson 决策原理是但愿在固定一类错误率时,使另外一类错误率尽量小。
记
P1(e)=∫R2p(x|ω1)dx
和
P2(e)=∫R1p(x|ω2)dx
分别表示第一类错误率(假阴性率)和第二类错误率(假阳性率),则上述要求可表述为:
minP1(e)
s.t.P2(e)−ϵ0=0
.
用拉格朗日乘子法,得:
γ=∑R2p(x|ω1)dx+λ[∫R1p(x|ω2)dx−ϵ0]=(1−λϵ0)+∫R1[λp(x|ω2)−p(x|ω1)]dx
.
分别对
λ
和决策边界
t
求导,可得:
①
λ=p(x|ω1)p(x|ω2)
,②
∫R1p(x|ω2)dx
.
要使
γ
最小,应选择
R1
使积分项内全为负值(不然可划出非负区域使之更小)。所以决策规则是:
若 l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} ### \lambda,则
x∈ω1
,不然
x∈ω2
.
(一般
λ
很难求得封闭解,须要用数值方法求解)
四、给出假阳性率、假阴性率、灵敏度
Sn
(sensitivity)、特异度
Sp
(specificity)、第一类错误率
α
、第二类错误率
β
、漏报、误报的关系,并给出相应的公式。
假阳性率就是假阳性样本占总阴性样本的比例。
假阴性率就是假阴性样本占总阳性样本的比例。
有:
α
= 假阳性率 = 第一类错误率 = 误报率 =
FPFP+TN
=
P1(e)
=
∫R2p(x|ω1)dx
.
β
= 假阴性率 = 第二类错误率 = 漏报率 =
FNFN+TP
=
P2(e)
=
∫R1p(x|ω2)dx
.
其中
ω1,ω2
分别表示阴性和阳性两个类别。
五、ROC 的全称是什么?ROC 曲线的横轴和纵轴各是什么?如何根据 ROC 曲线衡量一个方法的性能?给出 ROC 曲线的绘制步骤。
ROC 全称是 Receiver Operating Characteristic。
ROC 曲线的横轴是假阳性率,纵轴是假阴性率。
能够根据 ROC 曲线的曲线下面积 AUC (Area Under Curve) 来衡量一个方法的性能。
对于统计决策方法,每肯定一个似然比阈值就决定了决策的真、假阳性率。所以ROC 曲线绘制步骤为:
① 在
[0,1]
上均匀采样
N
个点;
② 以每一个点的值做为似然比阈值,根据公式
P1(e)=∫R2p(x|ω1)dx
和
P2(e)=∫R1p(x|ω2)dx
计算两类错误率,对应 ROC 上某个点;
③ 把这些点链接起来获得 ROC 曲线。
对于基于样本直接设计分类器的方法,ROC 曲线绘制步骤相似。只需将似然比阈值改为归一化后的分类器得分阈值,把两类错误率的计算公式改为
FPFP+TN
和
FNFN+TP
便可。
六、设
p(x|ωi)∼N(μi,Σi), i=1,⋯,c
,给出各种别的判别函数和决策面方程并计算错误率。同时说明在各种别协方差矩阵相等和不等的状况下,决策面各是什么形态。
七、疾病检查,
ω1
表明正常人,
ω2
表明患病者。假设先验几率
P(ω1)=0.9
,
P(ω2)=0.1
。现有一被检查者,观察值为
x
,查得
p(x|ω1)=0.2
,
p(x|ω2)=0.4
,同时已知风险损失函数为
⎡⎣⎢⎢λ11λ21λ12λ22⎤⎦⎥⎥=⎡⎣⎢⎢0160⎤⎦⎥⎥
. 分别基于最小错误率和最小贝叶斯进行决策,并给出计算过程。
八、设
d
维随机变量
x
各份量间相互独立,且
d
足够大,试基于中心极限定理估计贝叶斯错误率。
九、什么是统计决策?比较基于模型的方法和基于数据的方法。
统计决策的基本原理就是根据各种特征的几率模型来估算后验几率,经过比较后验几率进行决策。而经过贝叶斯公式,后验几率的比较能够转化为类条件几率密度的比较。
基于模型的方法是从模型的角度出发,把模式识别问题转化成了几率模型估计的问题。若是可以很好地创建和估计问题的几率模型,那么相应的分类决策问题就能被很好地解决。
基于数据的方法不依赖样本几率分布的假设,而直接从训练样本出发训练分类器。
3、几率密度函数的估计
一、比较四种方法:参数统计方法、非参数统计方法、前馈神经网络、支持向量机各有什么优缺点?
(1)参数统计方法
(2)非参数统计方法
优势:假设条件少,运算简单,方法直观容易理解,可以适应名义尺度和顺序尺度等对象。
缺点:方法简单,检验功效差,计算和存储要求高。
(3)前馈神经网络
优势:分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具有联想记忆的功能等。特别重要的是,神经网络能够用来提取特征,这是许多其余机器学习方法所不具有的能力(例如使用autoencoder,不标注语料的状况下,能够获得原始数据的降维表示)。
缺点:须要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。
(4)支持向量机
优势:能解决小样本问题,能处理非线性问题,无局部极小值问题,能很好地处理高维数据,泛化能力强。
缺点:对核函数的高维映射解释能力不强(尤为是径向基函数),对缺失数据敏感,难以处理大规模数据,难以解决多分类问题(经常使用一对多、一对1、SVM 决策树),对非线性问题没有通用解决方案(有时候很难找到一个合适的核函数)。
注:缺失数据?
这里说的缺失数据是指缺失某些特征数据,向量数据不完整。SVM没有处理缺失值的策略(决策树有)。而SVM但愿样本在特征空间中线性可分,因此特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。
二、最大似然估计的基本假设是什么?给出最大似然估计的计算步骤。
三、简述贝叶斯估计的原理和步骤。
(1)原理
贝叶斯估计把参数估计当作贝叶斯决策问题,要决策的是参数的取值,且是在连续空间里作决策。
目标函数是最小化给定样本集
下的条件风险:
θ∗=argminθ̂ R(θ̂ |)=∫Θλ(θ̂ ,θ)p(θ|)dθ
.
取
λ(θ̂ ,θ)=(θ−θ̂ )2
,带入
R(θ̂ |)
并对
θ̂
求导置零可得:
θ∗=E[θ|]=∫Θθp(θ|)dθ
.
(2)步骤
① 肯定
θ
的先验分布:
p(θ)
.
② 计算样本集的联合分布:
p(|θ)=∏Ni=1p(xi|θ)
.
③ 计算
θ
的后验几率:
p(θ|)=p(|θ)p(θ)∫Θp(|θ)p(θ)dθ
.
④
θ
的贝叶斯估计量是:
θ∗=∫Θθp(θ|)dθ
.
(一般没必要求得
θ
的估计值,而是直接获得样本的几率密度估计
p(x|)=∫Θp(x|θ)p(θ|)dθ
)
四、简述贝叶斯学习(区别于贝叶斯估计)的原理。
贝叶斯学习即递推的贝叶斯估计——每次用单个样本调整分布,以上一次的
θ
后验几率做为这一次
θ
的先验几率。
记
N=x1,⋯,xN
,将贝叶斯估计结果重写为:
θ∗=∫Θθp(θ|N)dθ
.
其中:
p(θ|N)=p(N|θ)p(θ)∫Θp(N|θ)p(θ)dθ
.
由独立同分布,有:
p(N|θ)=p(xN|θ)p(N−1|θ)
.
因而能够获得递推公式:
p(θ|N)=p(xN|θ)p(θ|N−1 )∫Θp(xN|θ)p(θ|N−1 )dθ
.
注意,分子分母约去了
p(θ)
.
因而随着样本的增长,能够获得一系列地推的贝叶斯估计:
p(θ)
,
p(θ|x1)
,
⋯
,
p(θ|x1,⋯,xN)
,
⋯
五、设某类样本整体服从正态分布
N(μ,Σ)
,参数未知。试基于独立同分布样本
x1,⋯,xN
,分别采用最大似然估计和贝叶斯估计获得
μ
和
Σ
的估计值。
六、贝叶斯估计中,设
θ
被估计为
θ̂
的风险为
λ(θ̂ ,θ)
. 最优估计应该使
R=∬λ(θ̂ ,θ)p(x,θ)dθdx=∫R(θ̂ |x)p(x)dx
最小化。其中
R(θ̂ |x)=λ(θ̂ ,θ)p(θ|x)
。证实当
λ(θ̂ ,θ)=(θ̂ −θ)2
时,
θ̂ =E[θ|x]=∫θp(θ|x)dθ
.
见第 3 题的答案。
七、基于公式
p̂ (x)=kNV
,比较三种非参数估计方法:直方图方法、
kN
近邻算法与 Parzen 窗法的区别与优缺点。
八、给定样本
x1,⋯,xN
,窗函数
ϕ(x)
和窗宽
hN
,写出几率密度函数
p(x)
的 Parzen 窗估计公式
p̂ N(x)
。若一维空间中
p(x)∼N(μ,σ2)
,
ϕ(x)∼N(0,1)
,证实
E[p̂ (x)]∼N(μ,σ2+h2N)
。
4、线性分类器
一、线性分类器的设计原理是什么?与统计决策和非线性分类器相比,有哪些优缺点?阐述线性判别函数的基本概念。
二、简述 Fisher 线性判别分析的原理,并给出主要计算步骤和分类决策规则。
三、证实:在正态等协方差矩阵条件下,Fisher 线性判别等价于贝叶斯判别函数。
贝叶斯判别:
决策面方程为
P(ω1|x)=P(ω2|x)
,即:
lnP(x|ω1)P(x|ω2)=lnP(ω2)P(ω1)
.
当
p(x|ωi)
服从正态分布时,可整理得决策面方程为:
−12[(x−μ1)TΣ−11(x−μ1)−(x−μ2)TΣ−12(x−μ2)]−12ln|Σ1||Σ2|=lnP(ω2)P(ω1)
.
当
Σ1=Σ2
时,
x
的二次项被抵消,决策面变为线性方程:
[Σ−1(μ1−μ2)]x+[12(μ1+μ2)TΣ−1(μ1−μ2)−12lnP(ω2)ω1]=0
.
分类器是线性函数
g(x)=wTx+ω0
,其中:
w=Σ−1(μ1−μ2)
,
ω0=−12(μ1+μ2)TΣ−1(μ1−μ2)−12lnP(ω2)ω1
.
Fisher 线性判别分析:
准则函数为
maxwJF(w)=Sb~Sw~=wTSbwwTSww
.
其中
Sb=(m1−m2)(m1−m2)T
,
Sw=∑i=1,2∑xj∈i(xj−mi)(xj−mi)T
.
咱们只关系
w
的方向,于是可固定
w
的尺度为知足
wTSWw=c
,采用拉格朗日乘子法可转化为无约束极值问题:
L(w,λ)=wTSbw−λ(wTSw−c)
.
极值处知足导数为零,整理可得
S−1wSbw\*=λw\*
.
把
Sb=(m1−m2)(m1−m2)T
带入,得
λw\*S−1w=(m1−m2)(m1−m2)Tw∗
.
注意到
(m1−m2)Tw\*
是常数项,不影响
w\*
的方向,而咱们只关心
w\*
的方向,因而可取:
w∗=S−1w(m1−m2)
.
阈值一般采用:
ω0=−12(m̃ 1+m̃ 2)
或者
ω0=−m̃
.
比较:
注意到
Si=(n−1)Σi
,当
Σ1=Σ2
时,显然有:
wF=S−1w(m1−m2)∝wB=Σ−1(μ1−μ2)
.
所以贝叶斯决策的超平面方向与 Fisher 线性判别分析的方向是相同的。
(此外,注意到,当先验几率相同时,两者的分类器阈值也是相同的)
四、试设计一个 c 类 Fisher 判别分析方法。
引导:
在两类 Fisher 判别分析中,将类内散度矩阵
Sw
, 类间散度矩阵
Sb
和总体散度矩阵
St
写出以下:
Sw=∑2i=1∑Njj=1(xj−mi)(xj−mi)T
.
Sb=(m1−m2)(m1−m2)T
.
St=∑Ni=1(xi−m)(xi−m)T
.
咱们注意到两点:
①
Sb=(m1−m2)(m1−m2)T=NN1N2∑2i=1(mi−m)(mi−m)T
.(注意
m=1N1m1+1N2m2
)
②
St=Sw+kSb
,其中
k=N1N2N
,即 “整体散度 = 类内散度 + 类间散度”.
由此能够将两类 Fisher 推广到 c 类情形。类内散度、类间散度和整体散度矩阵可分别推导以下:
Sw=∑ci=1∑Nij=1(xj−mi)(xj−mi)T
(
=∑Ni=1xixTi−∑ci=1NimimTi
).
St=∑Ni=1(xi−m)(xi−m)T
(
=∑Ni=1xixTi−NmmT
).
Sb=St−Sw=∑ci=1NimimTi−NmmT
=∑ci=1Ni(mi−m)(mi−m)T
.
c 类 Fisher 线性判别分析:
根据 c 类样本,构建类内类间散度矩阵以下:
Sw=∑ci=1∑xj∈i(xj−mi)(xj−mi)T
,
Sb=∑ci=1Ni(mi−m)(mi−m)T
.
其中
mi=1Ni∑xj∈ixj
,
m=1N∑ci=1Nimi
.
假设原始
d
维特征被投影到
k
维,待求的投影矩阵为
W∈Rk×d
,则投影后的散度矩阵为:
sw=WSwW
,
sb=WSbWT
。
咱们构造一个当类间协方差大,类内协方差小时,值比较大的标量。可设计判别准则为:
J(W)=tr(s−1wsb)=tr((WSwWT)−1(WSbW))
.
最大化
J(W)
获得的权值
W
由
S−1wSb
的前
k
个特征值对应的特征向量组成。
特征映射以后的多类分类问题,能够由多类线性分类器(如多类 SVM)实现,也可假设各种样本服从高斯分布,基于参数估计和贝叶斯决策求解。
五、简述感知器原理,并给出主要计算步骤,说明有什么办法可使得感知器的解更可靠。
六、设计一个 c 类感知器算法。
决策函数为:
gi(x)=αTiy
,其中
y=[xT 1]T
表示增广向量,
αi=[wTi ωi0]T
表示增广权向量。
决策规则为:若 g_i(x) ### g_j(x),\ \forall j\neq i,则
x∈ωi
。
学习目标为全部训练样本正确分类。
优化算法(梯度降低 + 单样本逐步修正法):
① 初始化权向量
αi(0), i=1,⋯,c
.
② 考查样本
yk∈ωi
,若
yk
被正确分类,即 \alpha_i(t)^T y_k ### \alpha_j(t)^T y_k,\ \forall j\neq i,则全部权值不变;不然,设
αl(t)Tyj=maxjαj(t)Tyk, j≠i
,对
αi,αl
作以下调整:
αi(t+1)=αi(t)+ρtyj
,
αl(t+1)=αl(t)−ρtyj
,
αj(t+1)=αj(t), ∀j≠i
且
j≠l
.
③ 若是全部样本都正确分类,则中止;不然考查下一个样本,转 ②。
当样本线性可分时,该算法会在有限步内收敛到最优解。
当样本线性不可分时,可逐步缩小步长
ρt
以强制算法收敛。
七、简述最小平方偏差(MSE)判别的原理,并给出三种不一样的优化算法。
八、证实:① 若对同类样本取
bi
为相同的值,则 MSE 的解等价于 Fisher 判别分析;② 若对全部样本取
bi=1
,则当
N→∞
时,MSE 的解是贝叶斯判别函数
g0(x)=P(ω1|x)−P(ω2|x)
的最小平方偏差逼近。
九、试分别从几何角度和推广能力的角度阐述线性支持向量机(SVM)的原理,并给出线性不可分状况下 SVM 学习模型。
十、证实:最优超平面等价于在感知器算法中,在限制权值尺度的条件下,求余量的最大化。
十一、在支持向量机对偶形式的解中,对于正确分类的样本点、边界上的支持向量和错分支持向量,其
αi
和
ξi
分别是多少?为何?
十二、试设计一个 c 类支持向量机。
1三、比较四种线性分类器:Fisher 判别分析、感知器准则、MSE 和线性支持向量机,说明各自的优缺点。并针对如下数据,分别求出四种分类器对应的线性判别函数。
ω1 ω1 ω1 ω2 ω2 ω2x1324351x23330.52−1x32.5320.5−12x4315342
5、非线性分类器
一、什么是人工神经网络?其主要特色有哪些?给出三层前馈神经网络的输出公式,说明它如何应用到实际的两类或多类分类任务中,并指出须要注意的问题。
二、推导反向传播(BP)算法原理,并给出学习过程。
(1)推导
令
C,al,zl,Wl,bl
分别表示损失函数、第
l
层的激活值、加权和、权值矩阵和偏置向量。根据神经网络计算过程,这几个变量之间有以下关系:
C=C(aL)
.
al=σ(zl)
.
zl=Wlal−1+bl
.
记
δl=∂C∂zl
,容易获得如下四个重要的梯度公式:
①
δL=∂C∂aL⊙σ′(zL)
②
δl=((Wl+1)Tδl+1)⊙σ′(zl)
③
∂C∂bl=δl
④
∂C∂Wljk=al−1kδlj
其中 ② 式的推导以下:
δl=∂C∂zl=∑k∂C∂zl+1zl+1k∂zlj=∑kzl+1k∂zljδl+1k
.
把
zl+1k∂zlj=wl+1kjσ′(zlj)
代入上式得:
δlj=∑kwl+1kjδl+1kσ′(zlj)
.
写成矩阵形式便是 ② 式。
(2)步骤
(记
Wl,bl
为第
l
层权值和偏置,
zl=Wl+bl
,
al=σ(zl)
,
C=C(aL)
为损失函数,
δl=∂C∂zl
,
⊙
表示 Hadamard 积)
① 初始化:肯定神经网络结构,用小随机数初始化各节点权值。
② 反向传播:获取一个输入样本
x
,置
a1=x
。
- 前向传播(Feedforward):从第
2
层到第
L
层,逐层计算每层的加权和
zl=Wlal−1+bl
和激活函数值
al=σ(zl)
.
- 计算偏差:计算最后一层导数
δL=∂C∂zL=∂C∂aL⊙σ′(zL)
.
- 反向传播(Backpropagation):从第
L
层到第
2
层,逐层计算每层的导数
δl=((Wl+1)Tδl+1)⊙σ′(zl)
.
③ 梯度降低:对第
L
到
2
层的每一个节点,按照 ①
Wl→Wl−ηδl(al−1)T
和 ②
bl→bl−ηδl
来更新
Wl
和
bl
。
④ 终止条件:检查终止条件是否知足,知足则中止,不然转 ②。
(3)注意
以上步骤中:
- 取
C(a)=|y−a|22
时,
∂C∂aL
就是
(y−aL)
.
-
a=σ(z)=11+e−z
,所以
σ′(z)=a(1−a)
.
- 若是每次输入多个样本更新权值,则每次前向/反向计算
m
个样本上的梯度,并把第 ③ 步“梯度降低”的更新改为:①
Wl→Wl−∑xηδlx(al−1x)T
和 ②
bl→bl−∑xηδlx
便可。
二、给出反向传播(BP)算法的学习过程,说明其收敛结果受哪些因素影响。并分析前馈神经网络中,隐含层数增长对分类预测可能产生的影响。
BP 算法的最终收敛结果受初始值的影响很大。另外学习步长
η
也很重要。
三、有哪几类人工神经网络?阐述径向基函数网络的结构和功能,指出网络中的参数,并分析在训练一个径向基函数网络时,如何调节这些参数。
四、证实:当
N→∞
时,BP 算法的目标函数等价于神经网络输出与贝叶斯后验几率的均方偏差。
五、说明非线性支持向量机的核函数需知足的条件,并证实:① 采用
q
阶多项式核时,SVM 实现的是
q
阶的多项式判别函数,② 采用径向基核时,SVM 的决策函数与径向基网络形式相同,③ 采用 Sigmoid 核时,说明在
ν
和
c
知足什么条件时,SVM 等价于包含一个隐层的多层感知器神经网络,并证实之。
六、简述非线性支持向量机(SVM)的核心思想,简述如何选择 SVM 的核函数和参数,并设计一个多类的非线性支持向量机。
七、用公式阐述用于函数拟合的支持向量机(支持向量回归机,SVR)原理。
八、基于核技巧把 Fisher 线性判别分析推广到非线性状况。
(1)回顾 Fisher
Fisher 线性判别分析的准则为:
maxwJ(w)=wTSbwwTSww
.
对
x
进行非线性变换
x→ϕ(x)∈F
后,Fisher 的准则为:
maxwJ(w)=wTSϕbwwTSϕww
.
其中:
Sϕb=(mϕ1−mϕ2)(mϕ1−mϕ2)T
.
Sϕw=∑i=1,2∑x∈ωi(ϕ(x)−mϕi)(ϕ(x)−mϕi)T
.
mϕi=1Ni∑x∈ωiϕ(x)
.
(2)推导