模式识别/机器学习百题（含大部分答案）

时间 2019-12-07

标签模式识别机器学习大部分答案繁體版

原文原文链接

1、概论

一、简述模式的概念和它的直观特性，解释什么是模式识别，同时绘出模式识别系统的组成框图，并说明各部分的主要功能特性。

对于存在于时间和空间中，可观察的物体，若是咱们能够区分它们是否相同或类似，均可以称之为“模式”（或“模式类”）。web

模式所指的不是事物自己，而是从事物中得到的信息。所以，模式经常表现为具备时间和空间分布的信息。算法

模式的直观特性包括：可观察性，可区分性，类似性。bootstrap

模式识别就是对模式的区分和认识，把对象根据其特征归到若干类别中的适当一类。网络

模式识别系统的组成框图以下图所示。一个模式识别系统一般包括：原始数据获取与预处理、特征提取与选择、分类或聚类、后处理四个步骤。app

监督模式识别过程可概括为五个基本步骤：分析问题、原始特征获取、特征提取与选择、分类器设计、分类决策。框架

非监督模式识别过程可概括为五个基本步骤：分析问题、原始特征获取、特征提取与选择、聚类分析、结果解释。机器学习

每部分说明略。svg

二、简述模式识别系统中模式处理的完整过程，和一个分类器的设计过程。

模式处理的完整过程可概括为：数据/信息获取与预处理、特征提取与选择、分类或聚类、后处理四个步骤。函数

在统计决策中，分类器设计的过程包括：样本（类条件）几率密度形式假定、参数或非参数密度估计、肯定准则函数、肯定决策规则。性能

在基于样本直接设计的分类器中，分类器设计过程包括：肯定判别函数类型（线性、二次、决策树、神经网络等）、肯定学习目标（准则函数）、肯定优化算法，在训练数据上学习分类器、在测试数据上评价分类器、解释分析。

三、给出机器学习问题的形式化表示，并解释学习机器的推广能力。

（1）机器学习的形式化表示

已知变量 $y$ 与输入 $x$ 之间存在必定的未知依赖关系，即存在一个未知的映射 $F(x,y)$ 。

机器学习就是根据 $n$ 个独立同分布的观测样本 $\\{(x_1,y_1), \cdots, (x_n,y_n)\\}$ ，在一组函数 $\\{f(x,\omega)\\}$ 中求一个最优的函数，使预测的指望风险 $R(\omega) = L(y,f(x,\omega)) \text{d} F(x,y)$ 最小。

其中 $F(x,y)$ 表示全部可能出现的输入 $x$ 与输出 $y$ 的联合几率模型。

$\\{f(x,\omega)\\}$ 被称为预测函数集， $\omega \in \Omega$ 为函数的广义参数，故 $\\{f(x,\omega)\\}$ 能够表示任意函数集。

$L(y,f(x,\omega))$ 是使用 $f(x,\omega)$ 对 $y$ 进行预测而形成的损失。

简而言之，机器学习，就是在一组设定的函数集中寻找使指望风险最小的最优函数。

（2）学习机器的推广能力

模式识别是一种基于数据的机器学习，学习的目的不只是要对训练样本正确分类，而是要可以对全部可能样本都正确分类，这种能力叫作推广能力。

四、区别于基于模型的模式识别方法（统计决策原理），基于数据的模式识别方法直接从样本设计分类器。从样本直接设计分类器，须要肯定哪些基本要素？

须要肯定三个基本要素：① 判别函数类型（函数集），② 学习目标（准则函数），③ 优化算法。

五、给定一组有类别标号（ $M$ 类）的样本 $x_1,\cdots,x_N\ (x_i \in R^d)$ 。现有两种特征提取方法 $F_1$ 和 $F_2$ ，和两种分类方法 $C_1$ 和 $C_2$ 。请设计一个实验方案，分别比较特征提取方法和分类方法的性能。写出详细实验过程。

采用 5-fold 交叉验证来评估

2、统计决策方法

一、简述多分类问题的最小错误率贝叶斯决策过程，并给出相应的最小分类错误率。

二、阐述最小风险贝叶斯决策原理和决策步骤，说明在什么状况下最小风险决策等价于最小错误率决策，并证实之。

（1）决策原理

最小风险贝叶斯决策的目标是，针对决策规则 $\alpha(x)$ ，最小化指望风险：

$\min_{\alpha} R(\alpha) = \int R(\alpha|x) p(x) \text{d}x$ .

因为 $R(\alpha|x)$ 和 $p(x)$ 非负，且 $p(x)$ 已知，与 $\alpha$ 无关，于是最小风险贝叶斯决策就是：

若 $R(\alpha_i|x) = \min_{j=1,\cdots,k} R(\alpha_j|x)$ ，则 $\alpha = \alpha_i$ .

其中 $R(\alpha_i|x) = E[\lambda_{ij}|x] = \sum_{j=1}^c P(\omega_j|x),\ i=1,\cdots,k$ ， $\lambda_{ij} = \lambda(\alpha_i, \omega_j)$ 表示实际为 $\omega_j$ 的向量决策为 $\alpha_i$ 的损失，可从事先定义的决策表查得.

（2）决策步骤

① 计算后验几率： $P(\omega_j|x) = \frac{p(x|\omega_j)P(\omega_j)}{\sum_{i=1}^c p(x|\omega_i)P(\omega_i)}$ .

② 利用决策表，计算条件风险： $R(\alpha_i|x) = \sum_{j=1}^c \lambda_{ij} P(\omega_j|x)$ .

③ 决策： $\alpha = \arg \min_i R(\alpha_i |x)$ .

（3）等价关系

当 $\lambda_{ii} = 0$ 且 $\lambda_{ij} = C\ (i\neq j)$ ，其中 $C$ 为某一常数时，最小风险贝叶斯决策等价于最小错误率贝叶斯决策。

证实：

知足上述条件时，条件风险 $R(\alpha_i|x) = \sum_{j=1, j\neq i}^c C P(\omega_j|x)$ .

则决策规则 $\alpha = \arg \min_i R(\alpha_i |x)$ 等价于：

$\alpha = \arg \min_i \sum_{j\neq i} C P(\omega_j|x) = \arg \min_i C P(e|x) = \arg\max_i P(\omega_i| x)$ .

所以，最小风险贝叶斯决策等价于最小错误率贝叶斯决策。

三、简述 Neyman-Pearson 决策原理。

Neyman-Pearson 决策原理是但愿在固定一类错误率时，使另外一类错误率尽量小。

记 $P_1(e) = \int_{R_2} p(x|\omega_1) \text{d}x$ 和 $P_2(e) = \int_{R_1} p(x|\omega_2) \text{d}x$ 分别表示第一类错误率（假阴性率）和第二类错误率（假阳性率），则上述要求可表述为：

$\min P_1(e)$
$\text{s.t.} P_2(e) - \epsilon_0 = 0$ .

用拉格朗日乘子法，得：

$\gamma = \sum_{R_2} p(x|\omega_1)\text{d}x + \lambda[\int_{R_1} p(x|\omega_2)\text{d}x - \epsilon_0] = (1 - \lambda\epsilon_0) + \int_{R_1} [\lambda p(x|\omega_2) - p(x|\omega_1)]\text{d}x$ .

分别对 $\lambda$ 和决策边界 $t$ 求导，可得：

① $\lambda = \frac{p(x|\omega_1)}{p(x|\omega_2)}$ ，② $\int_{R_1} p(x|\omega_2) \text{d}x$ .

要使 $\gamma$ 最小，应选择 $R_1$ 使积分项内全为负值（不然可划出非负区域使之更小）。所以决策规则是：

若 $l(x) = \frac{p(x|\omega_1)}{p(x|\omega_2)} ### \lambda$ ，则 $x\in \omega_1$ ，不然 $x\in \omega_2$ .

（一般 $\lambda$ 很难求得封闭解，须要用数值方法求解）

四、给出假阳性率、假阴性率、灵敏度 $S_n$ （sensitivity）、特异度 $S_p$ （specificity）、第一类错误率 $\alpha$ 、第二类错误率 $\beta$ 、漏报、误报的关系，并给出相应的公式。

假阳性率就是假阳性样本占总阴性样本的比例。

假阴性率就是假阴性样本占总阳性样本的比例。

有：

$\alpha$ = 假阳性率 = 第一类错误率 = 误报率 = $\frac{\text{FP}}{\text{FP} + \text{TN}}$ = $P_1(e)$ = $\int_{R_2} p(x|\omega_1) \text{d}x$ .

$\beta$ = 假阴性率 = 第二类错误率 = 漏报率 = $\frac{\text{FN}}{\text{FN} + \text{TP}}$ = $P_2(e)$ = $\int_{R_1} p(x|\omega_2) \text{d}x$ .

其中 $\omega_1, \omega_2$ 分别表示阴性和阳性两个类别。

五、ROC 的全称是什么？ROC 曲线的横轴和纵轴各是什么？如何根据 ROC 曲线衡量一个方法的性能？给出 ROC 曲线的绘制步骤。

ROC 全称是 Receiver Operating Characteristic。

ROC 曲线的横轴是假阳性率，纵轴是假阴性率。

能够根据 ROC 曲线的曲线下面积 AUC (Area Under Curve) 来衡量一个方法的性能。

对于统计决策方法，每肯定一个似然比阈值就决定了决策的真、假阳性率。所以ROC 曲线绘制步骤为：

① 在 $[0,1]$ 上均匀采样 $N$ 个点；
② 以每一个点的值做为似然比阈值，根据公式 $P_1(e) = \int_{R_2} p(x|\omega_1) \text{d}x$ 和 $P_2(e) = \int_{R_1} p(x|\omega_2) \text{d}x$ 计算两类错误率，对应 ROC 上某个点；
③ 把这些点链接起来获得 ROC 曲线。

对于基于样本直接设计分类器的方法，ROC 曲线绘制步骤相似。只需将似然比阈值改为归一化后的分类器得分阈值，把两类错误率的计算公式改为 $\frac{\text{FP}}{\text{FP} + \text{TN}}$ 和 $\frac{\text{FN}}{\text{FN} + \text{TP}}$ 便可。

六、设 $p(x|\omega_i) \sim N(\mu_i, \Sigma_i),\ i=1,\cdots,c$ ，给出各种别的判别函数和决策面方程并计算错误率。同时说明在各种别协方差矩阵相等和不等的状况下，决策面各是什么形态。

七、疾病检查， $\omega_1$ 表明正常人， $\omega_2$ 表明患病者。假设先验几率 $P(\omega_1) = 0.9$ , $P(\omega_2) = 0.1$ 。现有一被检查者，观察值为 $x$ ，查得 $p(x|\omega_1) = 0.2$ , $p(x|\omega_2) = 0.4$ ，同时已知风险损失函数为 $\begin{bmatrix} \lambda_{11} & \lambda_{12} \\\\ \lambda_{21} & \lambda_{22} \end{bmatrix} = \begin{bmatrix} 0 & 6 \\\\ 1 & 0 \end{bmatrix}$ . 分别基于最小错误率和最小贝叶斯进行决策，并给出计算过程。

八、设 $d$ 维随机变量 $x$ 各份量间相互独立，且 $d$ 足够大，试基于中心极限定理估计贝叶斯错误率。

九、什么是统计决策？比较基于模型的方法和基于数据的方法。

统计决策的基本原理就是根据各种特征的几率模型来估算后验几率，经过比较后验几率进行决策。而经过贝叶斯公式，后验几率的比较能够转化为类条件几率密度的比较。

基于模型的方法是从模型的角度出发，把模式识别问题转化成了几率模型估计的问题。若是可以很好地创建和估计问题的几率模型，那么相应的分类决策问题就能被很好地解决。

基于数据的方法不依赖样本几率分布的假设，而直接从训练样本出发训练分类器。

3、几率密度函数的估计

一、比较四种方法：参数统计方法、非参数统计方法、前馈神经网络、支持向量机各有什么优缺点？

（1）参数统计方法

（2）非参数统计方法

优势：假设条件少，运算简单，方法直观容易理解，可以适应名义尺度和顺序尺度等对象。

缺点：方法简单，检验功效差，计算和存储要求高。

（3）前馈神经网络

优势：分类的准确度高,并行分布处理能力强,分布存储及学习能力强，对噪声神经有较强的鲁棒性和容错能力，能充分逼近复杂的非线性关系，具有联想记忆的功能等。特别重要的是，神经网络能够用来提取特征，这是许多其余机器学习方法所不具有的能力（例如使用autoencoder，不标注语料的状况下，能够获得原始数据的降维表示）。

缺点：须要大量的参数，如网络拓扑结构、权值和阈值的初始值；不能观察之间的学习过程，输出结果难以解释，会影响到结果的可信度和可接受程度；学习时间过长,甚至可能达不到学习的目的。

（4）支持向量机

优势：能解决小样本问题，能处理非线性问题，无局部极小值问题，能很好地处理高维数据，泛化能力强。

缺点：对核函数的高维映射解释能力不强（尤为是径向基函数），对缺失数据敏感，难以处理大规模数据，难以解决多分类问题（经常使用一对多、一对1、SVM 决策树），对非线性问题没有通用解决方案（有时候很难找到一个合适的核函数）。

注：缺失数据？

这里说的缺失数据是指缺失某些特征数据，向量数据不完整。SVM没有处理缺失值的策略（决策树有）。而SVM但愿样本在特征空间中线性可分，因此特征空间的好坏对SVM的性能很重要。缺失特征数据将影响训练结果的好坏。

二、最大似然估计的基本假设是什么？给出最大似然估计的计算步骤。

三、简述贝叶斯估计的原理和步骤。

（1）原理

贝叶斯估计把参数估计当作贝叶斯决策问题，要决策的是参数的取值，且是在连续空间里作决策。

目标函数是最小化给定样本集 $\mathcal{X}$ 下的条件风险：

$\theta^* = \arg \min_{\hat{\theta}} R(\hat{\theta}|\mathcal{X}) = \int_{\Theta} \lambda(\hat{\theta},\theta) p(\theta|\mathcal{X}) \text{d}\theta$ .

取 $\lambda(\hat{\theta}, \theta) = (\theta - \hat{\theta})^2$ ，带入 $R(\hat{\theta}|\mathcal{X})$ 并对 $\hat{\theta}$ 求导置零可得：

$\theta^* = E[\theta|\mathcal{X}] = \int_{\Theta} \theta p(\theta|\mathcal{X}) \text{d}\theta$ .

（2）步骤

① 肯定 $\theta$ 的先验分布： $p(\theta)$ .
② 计算样本集的联合分布： $p(\mathcal{X}|\theta) = \prod_{i=1}^N p(x_i|\theta)$ .
③ 计算 $\theta$ 的后验几率： $p(\theta|\mathcal{X}) = \frac{p(\mathcal{X}|\theta) p(\theta)}{\int_{\Theta} p(\mathcal{X}|\theta) p(\theta) \text{d}\theta}$ .
④ $\theta$ 的贝叶斯估计量是： $\theta^* = \int_{\Theta} \theta p(\theta|\mathcal{X}) \text{d}\theta$ .

（一般没必要求得 $\theta$ 的估计值，而是直接获得样本的几率密度估计 $p(x|\mathcal{X}) = \int_{\Theta} p(x|\theta) p(\theta|\mathcal{X}) \text{d}\theta$ ）

四、简述贝叶斯学习（区别于贝叶斯估计）的原理。

贝叶斯学习即递推的贝叶斯估计——每次用单个样本调整分布，以上一次的 $\theta$ 后验几率做为这一次 $\theta$ 的先验几率。

记 $\mathcal{X}^N = \\{x_1,\cdots,x_N\\}$ ，将贝叶斯估计结果重写为： $\theta^* = \int_{\Theta} \theta p(\theta|\mathcal{X}^N) \text{d}\theta$ .

其中：

$p(\theta|\mathcal{X}^N) = \frac{p(\mathcal{X}^N|\theta) p(\theta)}{\int_{\Theta} p(\mathcal{X}^N|\theta) p(\theta) \text{d}\theta}$ .

由独立同分布，有：

$p(\mathcal{X}^N|\theta) = p(x_N|\theta) p(\mathcal{X}^{N-1}|\theta)$ .

因而能够获得递推公式：

$p(\theta|\mathcal{X}^N) = \frac{p(x_N|\theta) p(\theta|\mathcal{X}^{N-1}\ )}{\int_{\Theta} p(x_N|\theta) p(\theta|\mathcal{X}^{N-1}\ ) \text{d}\theta}$ .

注意，分子分母约去了 $p(\theta)$ .

因而随着样本的增长，能够获得一系列地推的贝叶斯估计：

$p(\theta)$ , $p(\theta|x_1)$ , $\cdots$ , $p(\theta|x_1,\cdots,x_N)$ , $\cdots$

五、设某类样本整体服从正态分布 $N(\mu, \Sigma)$ ，参数未知。试基于独立同分布样本 $x_1,\cdots,x_N$ ，分别采用最大似然估计和贝叶斯估计获得 $\mu$ 和 $\Sigma$ 的估计值。

六、贝叶斯估计中，设 $\theta$ 被估计为 $\hat{\theta}$ 的风险为 $\lambda(\hat{\theta}, \theta)$ . 最优估计应该使

$R = \iint \lambda(\hat{\theta}, \theta) p(x,\theta) \text{d}\theta \text{d}x = \int R(\hat{\theta} | x) p(x) \text{d}x$
最小化。其中 $R(\hat{\theta} | x) = \lambda(\hat{\theta},\theta) p(\theta|x)$ 。证实当 $\lambda(\hat{\theta}, \theta) = (\hat{\theta} - \theta)^2$ 时，
$\hat{\theta} = E[\theta|x] = \int \theta p(\theta|x) \text{d}\theta$ .

见第 3 题的答案。

七、基于公式 $\hat{p}(x) = \frac{k}{NV}$ ，比较三种非参数估计方法：直方图方法、 $k_N$ 近邻算法与 Parzen 窗法的区别与优缺点。

八、给定样本 $x_1,\cdots,x_N$ ，窗函数 $\phi(x)$ 和窗宽 $h_N$ ，写出几率密度函数 $p(x)$ 的 Parzen 窗估计公式 $\hat{p}_N(x)$ 。若一维空间中 $p(x) \sim N(\mu,\sigma^2)$ ， $\phi(x) \sim N(0,1)$ ，证实 $E[\hat{p}(x)] \sim N(\mu, \sigma^2 + h_N^2)$ 。

4、线性分类器

一、线性分类器的设计原理是什么？与统计决策和非线性分类器相比，有哪些优缺点？阐述线性判别函数的基本概念。

二、简述 Fisher 线性判别分析的原理，并给出主要计算步骤和分类决策规则。

三、证实：在正态等协方差矩阵条件下，Fisher 线性判别等价于贝叶斯判别函数。

贝叶斯判别：

决策面方程为 $P(\omega_1 |x) = P(\omega_2|x)$ ，即：

$\text{ln} \frac{P(x|\omega_1)}{P(x|\omega_2)} = \text{ln} \frac{P(\omega_2)}{P(\omega_1)}$ .

当 $p(x|\omega_i)$ 服从正态分布时，可整理得决策面方程为：

$-\frac{1}{2} [(x-\mu_1)^T \Sigma_1^{-1} (x-\mu_1) - (x-\mu_2)^T \Sigma_2^{-1} (x-\mu_2)] - \frac{1}{2}\text{ln} \frac{|\Sigma_1|}{|\Sigma_2|} = \text{ln}\frac{P(\omega_2)}{P(\omega_1)}$ .

当 $\Sigma_1 = \Sigma_2$ 时， $x$ 的二次项被抵消，决策面变为线性方程：

$[\Sigma^{-1}(\mu_1 - \mu_2)]x + [\frac{1}{2}(\mu_1 + \mu_2)^T \Sigma^{-1} (\mu_1 - \mu_2) - \frac{1}{2}\text{ln}\frac{P(\omega_2)}{\omega_1}] = 0$ .

分类器是线性函数 $g(x) = w^T x + \omega_0$ ，其中：

$w = \Sigma^{-1}(\mu_1 - \mu_2)$ ,

$\omega_0 = -\frac{1}{2}(\mu_1 + \mu_2)^T \Sigma^{-1} (\mu_1 - \mu_2) - \frac{1}{2}\text{ln}\frac{P(\omega_2)}{\omega_1}$ .

Fisher 线性判别分析：

准则函数为 $\max_w J_F(w) = \frac{\tilde{S_b}}{\tilde{S_w}} = \frac{w^T S_b w}{w^T S_w w}$ .

其中

$S_b = (m_1 - m_2)(m_1 - m_2)^T$ ，
$S_w = \sum_{i = 1,2} \sum_{x_j \in \mathcal{X}_i} (x_j - m_i)(x_j - m_i)^T$ .

咱们只关系 $w$ 的方向，于是可固定 $w$ 的尺度为知足 $w^TS_W w = c$ ，采用拉格朗日乘子法可转化为无约束极值问题：

$L(w,\lambda) = w^TS_bw - \lambda(w^TS_w - c)$ .

极值处知足导数为零，整理可得 $S_w^{-1} S_b w^\* = \lambda w^\*$ .

把 $S_b = (m_1 - m_2)(m_1 - m_2)^T$ 带入，得 $\lambda w^\* S_w^{-1} = (m_1 - m_2) (m_1 - m_2)^T w^*$ .

注意到 $(m_1 - m_2)^T w^\*$ 是常数项，不影响 $w^\*$ 的方向，而咱们只关心 $w^\*$ 的方向，因而可取：

$w^* = S_w^{-1}(m_1 - m_2)$ .

阈值一般采用：

$\omega_0 = -\frac{1}{2} (\tilde{m}_1 + \tilde{m}_2)$ 或者

$\omega_0 = - \tilde{m}$ .

比较：

注意到 $S_i = (n-1)\Sigma_i$ ，当 $\Sigma_1 = \Sigma_2$ 时，显然有：

$w_F = S_w^{-1}(m_1 - m_2) \propto w_B = \Sigma^{-1}(\mu_1 - \mu_2)$ .

所以贝叶斯决策的超平面方向与 Fisher 线性判别分析的方向是相同的。

（此外，注意到，当先验几率相同时，两者的分类器阈值也是相同的）

四、试设计一个 c 类 Fisher 判别分析方法。

引导：

在两类 Fisher 判别分析中，将类内散度矩阵 $S_w$ , 类间散度矩阵 $S_b$ 和总体散度矩阵 $S_t$ 写出以下：

$S_w = \sum_{i=1}^2 \sum_{j=1}^{N_j} (x_j - m_i)(x_j - m_i)^T$ .
$S_b = (m_1 - m_2) (m_1 - m_2)^T$ .
$S_t = \sum_{i=1}^N (x_i - m)(x_i - m)^T$ .

咱们注意到两点：

① $S_b = (m_1 - m_2) (m_1 - m_2)^T = \frac{N}{N_1 N_2} \sum_{i=1}^2 (m_i - m) (m_i - m)^T$ .（注意 $m = \frac{1}{N_1}m_1 + \frac{1}{N_2} m_2$ ）
② $S_t = S_w + k S_b$ ，其中 $k = \frac{N_1 N_2}{N}$ ，即 “整体散度 = 类内散度 + 类间散度”.

由此能够将两类 Fisher 推广到 c 类情形。类内散度、类间散度和整体散度矩阵可分别推导以下：

$S_w = \sum_{i=1}^c \sum_{j=1}^{N_i} (x_j - m_i) (x_j - m_i)^T$ ( $= \sum_{i=1}^N x_i x_i^T - \sum_{i=1}^c N_i m_i m_i^T$ ).
$S_t = \sum_{i=1}^N (x_i - m)(x_i - m)^T$ ( $= \sum_{i=1}^N x_i x_i^T - Nmm^T$ ).
$S_b = S_t - S_w = \sum_{i=1}^c N_i m_i m_i^T - Nmm^T$ $= \sum_{i=1}^c N_i (m_i - m)(m_i - m)^T$ .

c 类 Fisher 线性判别分析：

根据 c 类样本，构建类内类间散度矩阵以下：

$S_w = \sum_{i=1}^c \sum_{x_j \in \mathcal{X}_i} (x_j - m_i) (x_j - m_i)^T$ ,
$S_b = \sum_{i=1}^c N_i (m_i - m)(m_i - m)^T$ .

其中 $m_i = \frac{1}{N_i} \sum_{x_j \in \mathcal{X}_i} x_j$ ， $m = \frac{1}{N} \sum_{i=1}^c N_i m_i$ .

假设原始 $d$ 维特征被投影到 $k$ 维，待求的投影矩阵为 $W\in R^{k\times d}$ ，则投影后的散度矩阵为： $s_w = W S_w W$ , $s_b = W S_b W^T$ 。

咱们构造一个当类间协方差大，类内协方差小时，值比较大的标量。可设计判别准则为：

$J(W) = \text{tr}(s_w^{-1} s_b) = \text{tr}((W S_w W^T)^{-1}(W S_b W))$ .

最大化 $J(W)$ 获得的权值 $W$ 由 $S_w^{-1} S_b$ 的前 $k$ 个特征值对应的特征向量组成。

特征映射以后的多类分类问题，能够由多类线性分类器（如多类 SVM）实现，也可假设各种样本服从高斯分布，基于参数估计和贝叶斯决策求解。

五、简述感知器原理，并给出主要计算步骤，说明有什么办法可使得感知器的解更可靠。

六、设计一个 c 类感知器算法。

决策函数为： $g_i(x) = \alpha_i^T y$ ，其中 $y = [x^T\ 1]^T$ 表示增广向量， $\alpha_i = [w_i^T\ \omega_{i0}]^T$ 表示增广权向量。

决策规则为：若 $g_i(x) ### g_j(x),\ \forall j\neq i$ ，则 $x\in \omega_i$ 。

学习目标为全部训练样本正确分类。

优化算法（梯度降低 + 单样本逐步修正法）：

① 初始化权向量 $\alpha_i(0),\ i=1,\cdots,c$ .

② 考查样本 $y_k \in \omega_i$ ，若 $y_k$ 被正确分类，即 $\alpha_i(t)^T y_k ### \alpha_j(t)^T y_k,\ \forall j\neq i$ ，则全部权值不变；不然，设 $\alpha_l(t)^T y_j = \max_j \alpha_j(t)^T y_k,\ j\neq i$ ，对 $\alpha_i, \alpha_l$ 作以下调整：

$\alpha_i(t+1) = \alpha_i(t) + \rho_t y_j$ ,
$\alpha_l(t+1) = \alpha_l(t) - \rho_t y_j$ ,
$\alpha_j(t+1) = \alpha_j(t),\ \forall j\neq i$ 且 $j\neq l$ .

③ 若是全部样本都正确分类，则中止；不然考查下一个样本，转 ②。

当样本线性可分时，该算法会在有限步内收敛到最优解。

当样本线性不可分时，可逐步缩小步长 $\rho_t$ 以强制算法收敛。

七、简述最小平方偏差（MSE）判别的原理，并给出三种不一样的优化算法。

八、证实：① 若对同类样本取 $b_i$ 为相同的值，则 MSE 的解等价于 Fisher 判别分析；② 若对全部样本取 $b_i = 1$ ，则当 $N\rightarrow \infty$ 时，MSE 的解是贝叶斯判别函数 $g_0(x) = P(\omega_1 | x) - P(\omega_2 | x)$ 的最小平方偏差逼近。

九、试分别从几何角度和推广能力的角度阐述线性支持向量机（SVM）的原理，并给出线性不可分状况下 SVM 学习模型。

十、证实：最优超平面等价于在感知器算法中，在限制权值尺度的条件下，求余量的最大化。

十一、在支持向量机对偶形式的解中，对于正确分类的样本点、边界上的支持向量和错分支持向量，其 $\alpha_i$ 和 $\xi_i$ 分别是多少？为何？

十二、试设计一个 c 类支持向量机。

1三、比较四种线性分类器：Fisher 判别分析、感知器准则、MSE 和线性支持向量机，说明各自的优缺点。并针对如下数据，分别求出四种分类器对应的线性判别函数。

$\begin{matrix} & x_1 & x_2 & x_3 & x_4 \\\ \omega_1 & 3 & 3 & 2.5 & 3 \\\ \omega_1 & 2 & 3 & 3 & 1 \\\ \omega_1 & 4 & 3 & 2 & 5 \\\ \omega_2 & 3 & 0.5 & 0.5 & 3 \\\ \omega_2 & 5 & 2 & -1 & 4 \\\ \omega_2 & 1 & -1 & 2 & 2 \end{matrix}$

5、非线性分类器

一、什么是人工神经网络？其主要特色有哪些？给出三层前馈神经网络的输出公式，说明它如何应用到实际的两类或多类分类任务中，并指出须要注意的问题。

二、推导反向传播（BP）算法原理，并给出学习过程。

（1）推导

令 $C, a^l, z^l, W^l, b^l$ 分别表示损失函数、第 $l$ 层的激活值、加权和、权值矩阵和偏置向量。根据神经网络计算过程，这几个变量之间有以下关系：

$C = C(a^L)$ .
$a^l = \sigma(z^l)$ .
$z^l = W^l a^{l-1} + b^l$ .

记 $\delta^l = \frac{\partial C}{\partial z^l}$ ，容易获得如下四个重要的梯度公式：

① $\delta^L = \frac{\partial C}{\partial a^L} \odot \sigma'(z^L)$

② $\delta^l = ((W^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l)$

③ $\frac{\partial C}{\partial b^l} = \delta^l$

④ $\frac{\partial C}{\partial W^l_{jk}} = a_k^{l-1} \delta_j^l$

其中 ② 式的推导以下：

$\delta^l = \frac{\partial C}{\partial z^l} = \sum_k \frac{\partial C}{\partial z^{l+1}} \frac{z_k^{l+1}}{\partial z^l_j} = \sum_k \frac{z_k^{l+1}}{\partial z^l_j} \delta_k^{l+1}$ .

把 $\frac{z_k^{l+1}}{\partial z^l_j} = w_{kj}^{l+1} \sigma'(z_j^l)$ 代入上式得：

$\delta_j^l = \sum_k w_{kj}^{l+1} \delta_k^{l+1} \sigma'(z_j^l)$ .

写成矩阵形式便是 ② 式。

（2）步骤

（记 $W^l, b^l$ 为第 $l$ 层权值和偏置， $z^l = W^l + b^l$ ， $a^l = \sigma(z^l)$ , $C = C(a^L)$ 为损失函数， $\delta^l = \frac{\partial C}{\partial z^l}$ , $\odot$ 表示 Hadamard 积）

① 初始化：肯定神经网络结构，用小随机数初始化各节点权值。

② 反向传播：获取一个输入样本 $x$ ，置 $a^1 = x$ 。
- 前向传播（Feedforward）：从第 $2$ 层到第 $L$ 层，逐层计算每层的加权和 $z^l = W^l a^{l-1} + b^l$ 和激活函数值 $a^l = \sigma(z^l)$ .
- 计算偏差：计算最后一层导数 $\delta^L = \frac{\partial C}{\partial z^L} = \frac{\partial C}{\partial a^L} \odot \sigma'(z^L)$ .
- 反向传播（Backpropagation）：从第 $L$ 层到第 $2$ 层，逐层计算每层的导数 $\delta^l = ((W^{l+1})^T \delta^{l+1}) \odot \sigma'(z^l)$ .

③ 梯度降低：对第 $L$ 到 $2$ 层的每一个节点，按照 ① $W^l \rightarrow W^l - \eta \delta^l (a^{l-1})^T$ 和 ② $b^l \rightarrow b^l - \eta \delta^l$ 来更新 $W^l$ 和 $b^l$ 。

④ 终止条件：检查终止条件是否知足，知足则中止，不然转 ②。

（3）注意

以上步骤中：

取 $C(a) = |y - a|_2^2$ 时， $\frac{\partial C}{\partial a^L}$ 就是 $(y - a^L)$ .
$a = \sigma(z) = \frac{1}{1 + e^{-z}}$ ，所以 $\sigma'(z) = a(1 - a)$ .
若是每次输入多个样本更新权值，则每次前向/反向计算 $m$ 个样本上的梯度，并把第 ③ 步“梯度降低”的更新改为：① $W^l \rightarrow W^l - \sum_x \eta \delta_x^l (a_x^{l-1})^T$ 和 ② $b^l \rightarrow b^l - \sum_x \eta \delta_x^l$ 便可。

二、给出反向传播（BP）算法的学习过程，说明其收敛结果受哪些因素影响。并分析前馈神经网络中，隐含层数增长对分类预测可能产生的影响。

BP 算法的最终收敛结果受初始值的影响很大。另外学习步长 $\eta$ 也很重要。

三、有哪几类人工神经网络？阐述径向基函数网络的结构和功能，指出网络中的参数，并分析在训练一个径向基函数网络时，如何调节这些参数。

四、证实：当 $N\rightarrow \infty$ 时，BP 算法的目标函数等价于神经网络输出与贝叶斯后验几率的均方偏差。

五、说明非线性支持向量机的核函数需知足的条件，并证实：① 采用 $q$ 阶多项式核时，SVM 实现的是 $q$ 阶的多项式判别函数，② 采用径向基核时，SVM 的决策函数与径向基网络形式相同，③ 采用 Sigmoid 核时，说明在 $\nu$ 和 $c$ 知足什么条件时，SVM 等价于包含一个隐层的多层感知器神经网络，并证实之。

六、简述非线性支持向量机（SVM）的核心思想，简述如何选择 SVM 的核函数和参数，并设计一个多类的非线性支持向量机。

七、用公式阐述用于函数拟合的支持向量机（支持向量回归机，SVR）原理。

八、基于核技巧把 Fisher 线性判别分析推广到非线性状况。

（1）回顾 Fisher

Fisher 线性判别分析的准则为：

$\max_w J(w) = \frac{w^T S_b w}{w^T S_w w}$ .

对 $x$ 进行非线性变换 $x\rightarrow \phi(x) \in F$ 后，Fisher 的准则为：

$\max_w J(w) = \frac{w^T S_b^{\phi} w}{w^T S_w^{\phi} w}$ .

其中：

$S_b^{\phi} = (m_1^{\phi} - m_2^{\phi})(m_1^{\phi} - m_2^{\phi})^T$ .
$S_w^{\phi} = \sum_{i=1,2} \sum_{x\in \omega_i} (\phi(x) - m_i^{\phi})(\phi(x) - m_i^{\phi})^T$ .
$m_i^{\phi} = \frac{1}{N_i} \sum_{x\in \omega_i} \phi(x)$ .

（2）推导