深度学习-数学基础

时间 2019-12-04

原文原文链接

深度学习阅读笔记

前言

目前主要有两种度量模型深度的方式。第一种方式是基于评估架构所需执行的顺序指令的数目。假设咱们将模型表示为给定输入后，计算对应输出的流程图，则能够将这张流程图中的最长路径视为模型的深度。另外一种是在深度几率模型中使用的方法，它不是将计算图的深度视为模型深度，而是将描述概念彼此如何关联的图的深度视为模型深度。在这种状况下，计算每一个概念表示的计算流程图的深度可能比概念自己的图更深。这是由于系统对较简单概念的理解在给出更复杂概念的信息后能够进一步精细化算法

目前大多数神经网络是基于一个称为整流线性单元(rectified linear unit)的神经单元模型。在 20 世纪 80 年代，神经网络研究的第二次浪潮在很大程度上是伴随一个被称为联结主义（connectionism）或并行分布处理 ( parallel distributed processing) 潮流而出现的。联结主义的中心思想是，当网络将大量简单的计算单元链接在一块儿时能够实现智能行为网络

联结主义中的几个关键概念在今天的深度学习中仍然是很是重要的
其中一个概念是分布式表示（distributed representation）。其思想是：系统的每个输入都应该由多个特征表示，而且每个特征都应该参与到多个可能输入的表示。即：能够将某一个具体的输入对象的各个组成元素抽象为多个特征，而后这多个特征就可以很好的描述该物体的特色或性质
联结主义潮流的另外一个重要成就是反向传播在训练具备内部表示的深度神经网络中的成功使用以及反向传播算法的普及架构

线性代数基础

转置
\[ (A^T)_{i,j} = A_{j,i} \]
乘积
\[ C = AB => C_{i.j} = \sum_k A_{i,k}B_{k,j} \]机器学习

矩阵乘积拥有的性质
分配律
\[ A(B + C) = AB + AC \]
结合律
\[ A(BC) = (AB)C \]分布式

矩阵乘积不知足交换律ide

两个相同维数的向量 x 和 y 的点积（dot product）可看做是矩阵乘积 $x^{T}y$函数

两个向量的点积知足交换律学习

\[ x^{T}y=y^{T}x \]优化

矩阵乘积的转置
\[ (AB)^{T} = B^{T}A^{T} \]编码

由两个向量点积的结果是标量，标量转置是自身，能够获得
\[ x^{T}y = (x^{T}y)^{T} = y^{T}x \]

单位矩阵（identity matrix）: 任意向量和单位矩阵相乘，都不会改变。将保持 n 维向量不变的单位矩阵记做 $I_{n}$。形式上，$I_{n} \in R^{n×n}$

单位矩阵的结构很简单：全部沿主对角线的元素都是 1，而全部其余位置的元素都是0

矩阵 $A$ 的 矩阵逆（matrix inversion）记做 $A^{−1}$，定义为
\[ A^{-1}A = I_{n} \]

等式 $Ax = b$，求解可得 $x = A^{-1}b$
若是 $A^{-1}$ 存在，那么该方程对于每个向量 $b$ 刚好存在一个解。可是，对于方程组而言，对于向量 $b$ 的某些值，有可能不存在解，或者存在无限多个解。存在多于一个解可是少于无限多个解的状况是不可能发生的。由于若是 $x,y$ 都是解，那么 $z = ax + (1-a)y$ 也是一个解

一组向量的 生成子空间（span）是原始向量线性组合后所能抵达的点的集合。肯定 $Ax = b$ 是否有解至关于肯定向量 $b$ 是否在 $A$ 列向量的生成子空间中。这个特殊的生成子空间被称为 $A$ 的 列空间（column space）或者 $A$ 的值域（range）

$n$ 为 $A$ 列空间维度，$m$ 为 $b$ 的维度，使方程对每一点都有解的必要条件是 $n \ge m$ 。这不是一个充分条件，由于有些列向量多是冗余的。这种冗余被称为 线性相关（linear dependence）。若是一组向量中的任意一个向量都不能表示成其余向量的线性组合，那么这组向量称为 线性无关（linearly independent）。因此，若是一个矩阵的列空间涵盖整个 $R^{m}$ ，那么该矩阵必须包含至少一组 $m$ 个线性无关的向量，其中 $b \in R^{m}$ 。这是对于任意 $b$ 的取值都有解的充分必要条件

不存在一个 $m$ 维向量的集合具备多于 $m$ 个彼此线性不相关的列向量，可是一个有多于 $m$ 个列向量的矩阵有可能拥有不止一个大小为 $m$ 的线性无关向量集

要想使矩阵可逆，须要保证式子 $Ax = b$ 对于每个 $b$ 值至多由一个解。为此，须要确保该矩阵至多有 m 个列向量。不然，该方程会有不止一个解

要想使用 $x = A^{-1}b$ 求得 $x$ ，必须保证一个 $A$ 是一个方阵（square），即 m = n，而且全部列向量都是线性无关的。一个列向量线性相关的方阵被称为 奇异的（singular）。若是矩阵 $A$ 不是一个方阵或者是一个奇异的方阵，该方程仍然可能有解。可是不能使用矩阵逆去求解

对于方阵而言，它的左逆和右逆是相等的

在机器学习中，常用被称为范数（norm）的函数衡量向量大小。形式上，$L^{p}$ 范数定义以下
\[ ||x||_{p} = (\sum_i |x_i|^{p})^{\frac{1}{p}} \]
其中 $p \in R, p \ge 1$

范数是将向量映射到非负值的函数。直观上来讲，向量 $x$ 的范数衡量从原点到点 $x$ 的距离。范数是知足下列性质的任意函数

$f(x) = 0 ⇒ x = 0$
$f(x + y) \le f(x) + f(y) （三角不等式（triangle inequality））$
$\forall \alpha \in R, f(\alpha x) = |\alpha|f(x)$

$L^{2}$ 范数被称为 欧几里得范数（Euclidean norm）。它表示从原点出发到向量 $x$ 肯定的点的欧几里得距离。平方 $L^{2}$ 范数也常常用来衡量向量的大小，能够简单地经过点积 $x^{⊤}x$ 计算

平方 $L^{2}$ 范数在数学和计算上都比 $L^{2}$ 范数自己更方便。可是在不少状况下，平方 $L^{2}$ 范数也可能不受欢迎，由于它在原点附近增加得十分缓慢。在某些机器学习应用中，区分刚好是零的元素和非零但值很小的元素是很重要的。在这些状况下，咱们转而使用在各个位置斜率相同，同时保持简单的数学形式的函数：$L^{1}$ 范数

当机器学习问题中零和非零元素之间的差别很是重要时，一般会使用 $L^{1}$ 范数。每当 $x$ 中某个元素从 0 增长 $\epsilon$ ，对应的 $L^{1}$ 范数也会增长 $\epsilon $

另一个常常在机器学习中出现的范数是 $L^{\infty}$ 范数，也被称为 最大范数（max norm）。这个范数表示向量中具备最大幅值的元素的绝对值
\[ ||x||_{\infty} = max_i|x_{i}| \]

有时候咱们可能也但愿衡量矩阵的大小。在深度学习中，最多见的作法是使用 Frobenius 范数（Frobenius norm）
\[ ||A||_F = \sqrt{\sum_{i,j}A^2_{i.j}} \]

两个向量的点积（dot product）能够用范数来表示，如
\[ x^Ty = ∥x∥_2 ∥y∥_2 \cos \theta \]

其中，$\theta$ 为向量 $x, y$ 之间的夹角

对角矩阵（diagonal matrix）只在主对角线上含有非零元素，其余位置都是零。用 $diag(v)$ 表示一个对角元素由向量 $v$ 中元素给定的对角方阵。对角方阵的逆矩阵存在，当且仅当对角元素都是非零值，在这种状况下，$diag(v)^{−1} = diag([\frac{1}{v1}, . . . , \frac{1}{vn}]^T)$

不是全部的对角矩阵都是方阵。长方形的矩阵也有多是对角矩阵。非方阵的对角矩阵没有逆矩阵，但咱们仍然能够高效地计算它们的乘法。对于一个长方形对角矩阵 $D$ 而言，乘法 $Dx$ 会涉及到 $x$ 中每一个元素的缩放，若是 $D$ 是瘦长型矩阵，那么在缩放后的末尾添加一些零；若是 $D$ 是胖宽型矩阵，那么在缩放后去掉最后一些元素

对称（symmetric）矩阵是转置和本身相等的矩阵，即 $A = A^T$

单位向量（unit vector）是具备 单位范数（unit norm）的向量，如$||x||_2 = 1$

若是 $x^Ty = 0$，那么向量 $x$ 和向量 $y$ 互相正交（orthogonal）。若是两个向量都有非零范数，那么这两个向量之间的夹角是 90 度。在 $R^n$ 中，至多有 $n$ 个范数非零向量互相正交。若是这些向量不只互相正交，而且范数都为 1，那么咱们称它们是 标准正交（orthonormal）

正交矩阵（orthogonal matrix）是指行向量和列向量是分别标准正交的方阵：$A^TA = AA^T = I$，这意味着 $A^{-1} = A^T$

特征分解（eigendecomposition）是使用最广的矩阵分解之一，即将矩阵分解成一组特征向量和特征值。方阵 $A$ 的 特征向量（eigenvector）是指与 $A$ 相乘后至关于对该向量进行缩放（$Av = λv$）的非零向量 $v$。标量 $λ$ 被称为这个特征向量对应的 特征值（eigenvalue）

若是 $v$ 是 $A$ 的特征向量，那么任何缩放后的向量 $sv (s \in R，s \ne 0)$ 也是 A 的特征向量。此外，$sv$ 和 $v$ 有相同的特征值

假设矩阵 $A$ 有 $n$ 个线性无关的特征向量 ${v(1), . . . , v(n)}$，对应着特征值${λ1, . . . , λn}$。咱们将特征向量链接成一个矩阵，使得每一列是一个特征向量：$V = [v^{(1)}, . . . , v^{(n)}]$。相似地，咱们也能够将特征值链接成一个向量 $λ = [λ_1, . . . , λ_n]^T$。所以 $A$ 的 特征分解（eigendecomposition）能够记做
\[ A = Vdiag(λ)V^{-1} \]

每一个实对称矩阵均可以分解成实特征向量和实特征值
\[ A = Q Λ Q^{T} \]
其中， $Q$ 是 $A$ 的特征向量组成的正交矩阵，$Λ$ 是对角矩阵。特征值 $Λ_{i,i}$ 对应的特征向量是矩阵 $Q$ 的第i列，记做 $Q_{:,i}$

由于 $Q$ 是正交矩阵，咱们能够将 $A$ 看做沿方向 $v^{(i)}$ 延展 $λ_i$ 倍的空间

任意一个实对称矩阵 A 都有特征分解，可是特征分解可能并不惟一。若是两个或多个特征向量拥有相同的特征值，那么在由这些特征向量产生的生成子空间中，任意一组正交向量都是该特征值对应的特征向量

矩阵是奇异的当且仅当含有零特征值

全部特征值都是正数的矩阵被称为 正定（positive definite）；全部特征值都是非负数的矩阵被称为 半正定（positive semidefinite）。一样地，全部特征值都是负数的矩阵被称为 负定（negative definite）；全部特征值都是非正数的矩阵被称为 半负定（negative semidefinite）

另外一种分解矩阵的方法，被称为 奇异值分解（singular value decomposition, SVD），将矩阵分解为 奇异向量（singular vector） 和 奇异值（singular value）。每一个实数矩阵都有一个奇异值分解，但不必定都有特征分解

奇异值分解将矩阵 $A$ 分解成三个矩阵的乘积
\[ A = UDV^{T} \]
假设 $A$ 是一个 m × n 的矩阵，那么 $U$ 是一个 m × m 的矩阵，$D$ 是一个 m × n 的矩阵，$V$ 是一个 n × n 矩阵。矩阵 $U$ 和 $V$ 都定义为正交矩阵，而矩阵 $D$ 定义为对角矩阵，但不必定是方阵

对角矩阵 $D$ 对角线上的元素被称为矩阵 $A$ 的 奇异值（singular value）。矩阵 $U$ 的列向量被称为 左奇异向量（left singular vector），矩阵 $V$ 的列向量被称 右奇异向量（right singular vector）

$A$ 的 左奇异向量（left singular vector）是 $AA^⊤$ 的特征向量。$A$ 的 右奇异向量（right singular vector）是 $A^{⊤}A$ 的特征向量。$A$ 的非零奇异值是 $A^{⊤}A$ 特征值的平方根，同时也是$AA^⊤$ 特征值的平方根

迹运算返回的是矩阵对角元素的和
\[ Tr(A) = \sum_i A_{i,i} \]
迹运算提供了另外一种描述矩阵Frobenius范数的方式
\[ ||A||_F = \sqrt{Tr(AA^{T})} \]

迹运算在转置运算下是不变的
\[ Tr(A) = Tr(A^T) \]

多个矩阵相乘获得的方阵的迹，和将这些矩阵中的最后一个挪到最前面以后相乘的迹是相同的
\[ Tr(ABC) = Tr(CAB) = Tr(BCA) \]

标量在迹运算后仍然是它本身：$a = Tr(a)$

行列式，记做 det(A)，是一个将方阵 A 映射到实数的函数。行列式等于矩阵特征值的乘积。行列式的绝对值能够用来衡量矩阵参与矩阵乘法后空间扩大或者缩小了多少。若是行列式是 0，那么空间至少沿着某一维彻底收缩了，使其失去了全部的体积。若是行列式是 1，那么这个转换保持空间体积不变

主成分分析（principal components analysis, PCA）是一个简单的机器学习算法，能够经过基础的线性代数知识推导

在人工智能领域，几率论主要有两种用途。首先，几率法则告诉咱们 AI 系统如何推理，据此咱们设计一些算法来计算或者估算由几率论导出的表达式。其次，咱们能够用几率和统计从理论上分析咱们提出的 AI 系统的行为

几乎全部的活动都须要一些在不肯定性存在的状况下进行推理的能力。不肯定性有三种可能的来源

被建模系统内在的随机性
不彻底观测。即便是肯定的系统，当咱们不能观测到全部驱动系统行为的变量时，该系统也会呈现随机性
不彻底建模。当咱们使用一些必须舍弃某些观测信息的模型时，舍弃的信息会致使模型的预测出现不肯定性

直接与事件发生的频率相联系，被称为 频率派几率（frequentist probability）；涉及到肯定性水平，被称为 贝叶斯几率（Bayesian probability），如：在医生诊断病人的例子中，咱们用几率来表示一种 信任度（degree of belief），其中 1 表示很是确定病人患有流感，而 0 表示很是确定病人没有流感

几率分布（probability distribution）用来描述随机变量或一簇随机变量在每个可能取到的状态的可能性大小。描述几率分布的方式取决于随机变量是离散的仍是连续的

离散型变量的几率分布能够用 几率质量函数（probability mass function, PMF）来描述。几率质量函数将随机变量可以取得的每一个状态映射到随机变量取得该状态的几率

几率质量函数能够同时做用于多个随机变量。这种多个变量的几率分布被称为 联合几率分布（joint probability distribution）。P(x = $x$, y = $y$) 表示 x = $x$ 和 y = $y$ 同时发生的几率。咱们也能够简写为 P($x$, $y$)

当研究的对象是连续型随机变量时，用 几率密度函数（probability density function, PDF）而不是几率质量函数来描述它的几率分布

几率密度函数 p(x) 并无直接对特定的状态给出几率，相对的，它给出了落在面积为 δx 的无限小的区域内的几率为 p(x)δx

有时候，咱们知道了一组变量的联合几率分布，但想要了解其中一个子集的几率分布。这种定义在子集上的几率分布被称为 边缘几率分布（marginal probability distribution），如：已知P(x, y)，求P(x)

某个事件在给定其余事件发生时出现的几率叫作条件几率，将给定 x = $x$，y = $y$ 发生的条件几率记为 P(y = $y$ | x = $x$)

任何多维随机变量的联合几率分布，均可以分解成只有一个变量的条件几率相乘的形式
\[ P(x^{(1)},...,x^{(n)}) = P(x^{(1)})\pi^n_{i=2} P(x(i) | x^{(1)},...x^{(i-1)}) \]
这个规则被称为几率的 链式法则（chain rule）或者 乘法法则（product rule）。举例
\[ P(a, b, c) = P(a | b,c)P(b, c) \]
\[ P(b, c) = P(b | c)P(c) \]
\[ P(a, b, c) = P(a | b,c)P(b | c)P(c) \]

两个随机变量 x 和 y，若是它们的几率分布能够表示成两个因子的乘积形式，而且一个因子只包含 x 另外一个因子只包含 y，咱们就称这两个随机变量是 相互独立的（independent）
\[ \forall x \in X, y \in Y, p(x = x_0, y = y_0) = P(x = x_0)p(y = y_0) \]

若是关于 x 和 y 的条件几率分布对于 z 的每个值均可以写成乘积的形式，那么这两个随机变量 x 和 y 在给定随机变量 z 时是条件独立的（conditionally independent）
\[ \forall x \in X, y \in Y, z \in Z, p(x = x_0, y = y_0 | z = z_0) = p(x = x_0 | z = z_0)p(y = y_0 | z = z_0) \]

函数 f(x) 关于某分布 P(x) 的 指望（expectation）或者 指望值（expectedvalue）是指，当 x 由 P 产生，f 做用于 x 时，f(x) 的平均值

方差（variance）衡量的是当咱们对 x 依据它的几率分布进行采样时，随机变量 x 的函数值会呈现多大的差别
\[ Var(f(x)) = E[(f(x) - E[f(x)])^2] \]
当方差很小时，f(x) 的值造成的簇比较接近它们的指望值。方差的平方根被称为 标准差（standard deviation）

协方差（covariance）在某种意义上给出了两个变量线性相关性的强度以及这些变量的尺度
\[ Cov(f(x), g(y)) = E[(f(x) − E[f(x)])(g(y) − E[g(y)])]. \]

协方差的绝对值若是很大则意味着变量值变化很大而且它们同时距离各自的均值很远。若是协方差是正的，那么两个变量都倾向于同时取得相对较大的值。若是协方差是负的，那么其中一个变量倾向于取得相对较大的值的同时，另外一个变量倾向于取得相对较小的值，反之亦然。其余的衡量指标如 相关系数（correlation）将每一个变量的贡献归一化，为了只衡量变量的相关性而不受各个变量尺度大小的影响

两个变量若是相互独立那么它们的协方差为零，若是两个变量的协方差不为零那么它们必定是相关的。两个变量若是协方差为零，它们之间必定没有线性关系。独立性比零协方差的要求更强，由于独立性还排除了非线性的关系。两个变量相互依赖但具备零协方差是可能的

随机向量 $x ∈ R^n$ 的 协方差矩阵（covariance matrix）是一个 n × n 的矩阵，而且知足
\[ Cov(x)_{i,j} = Cov(x_i, x_j) \]
协方差矩阵的对角元是方差
\[ Cov(x_i, x_i) = Var(x_i) \]

最经常使用的分布就是 正态分布（normal distribution），也称为 高斯分布（Gaussian distribution）
\[ N(x; \mu, \sigma^2) = \sqrt{\frac{1}{2\pi\sigma^2}}exp(-\frac{1}{2\sigma^2}(x - \mu)^2) \]

正态分布的中心峰的 x 坐标由 $\mu$ 给出，峰的宽度受 $\sigma$ 控制

在具备相同方差的全部可能的几率分布中，正态分布在实数上具备最大的不肯定性。能够认为正态分布是对模型加入的先验知识量最少的分布

正态分布能够推广到 $R^n$ 空间，这种状况下被称为 多维正态分布（multivariate normal distribution）。它的参数是一个正定对称矩阵 $\sum$
\[ N(x; \mu, \sum) = \sqrt{\frac{1}{(2\pi)^ndet(\sum)}}exp(-\frac{1}{2}(x-\mu)^T\sum^{-1}(x - \mu)) \]
此时，参数 $\mu$ 仍然表示分布的均值，只不过如今是向量值。参数 $\sum$ 给出了分布的协方差矩阵
当对不少不一样参数下的几率密度函数屡次求值时，协方差矩阵并非一个很高效的参数化分布的方式，由于对几率密度函数求值时须要对 $\sum$ 求逆。咱们可使用一个 精度矩阵（precision matrix） $\beta$ 进行替代
\[ N(x; \mu, \beta) = \sqrt{\frac{det(\beta)}{(2\pi)^n}}exp(-\frac{1}{2}(x-\mu)^T\beta(x - \mu)) \]

经过 Dirac delta 函数（Dirac delta function）$\delta(x)$ 定义几率密度函数来将望几率分布中的全部质量都集中在一个点上
\[ p(x) = \sigma(x - \mu) \]
Dirac delta 函数被定义成在除了 $x=\mu$ 之外的全部点的值都为 0，可是积分为 1。在 $x=\mu$ 处具备无限窄也无限高的峰值的几率质量

Dirac 分布常常做为 经验分布（empirical distribution）的一个组成部分出现
\[ \hat{p}(x) = \frac{1}{m}\sum_{i=1}^{m} \sigma(x - x^{(i)}) \]
经验分布将几率密度 $\frac{1}{m}$ 赋给 m 个点 $x^{(1)}$, . . . , $x^{(m)}$ 中的每个，这些点是给定的数据集或者采样的集合。只有在定义连续型随机变量的经验分布时，Dirac delta 函数才是必要的

一些等式
\[ \sigma(x) = \frac{exp(x)}{exp(x) + exp(0)} \]
\[ \frac{d\sigma(x)}{dx} = \sigma(x)(1-\sigma(x)) \]
\[ 1 - \sigma(x) = \sigma(-x) \]
\[ log\sigma(x) = -\zeta(-x) \]
\[ \frac{d\zeta(x)}{d(x)} = \sigma(x) \]
\[ \forall x \in (0,1), \sigma^{-1}(x) = log(\frac{x}{1-x}) \]
\[ \forall x > 0, \zeta^{-1}(x) = log(exp(x) - 1) \]
\[ \zeta(x) = \int_{-\infty}^x \sigma(y)dy \]
\[ \zeta(x) - \zeta(-x) = x \]

贝叶斯规则(Bayes' rule)
\[ P(x | y) = \frac{P(x)P(y | x)}{P(y)} \]

若是咱们对于同一个随机变量 $x$ 有两个单独的几率分布 $P(x)$ 和 $Q(x)$，咱们可使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差别
\[ D_{KL}(P||Q) = E_{X \sim P}[log\frac{P(x)}{Q(x)}] = E_{X \sim P}[logP(x) - logQ(x)] \]
在离散型变量的状况下，KL 散度衡量的是，当咱们使用一种被设计成可以使得几率分布 $Q$ 产生的消息的长度最小的编码，发送包含由几率分布 $P$ 产生的符号的消息时，所须要的额外信息量

KL 散度有不少有用的性质，最重要的是它是非负的。KL 散度为 0 当且仅当 $P$ 和 $Q$ 在离散型变量的状况下是相同的分布，或者在连续型变量的状况下是 ‘‘几乎到处’’ 相同的。由于 KL 散度是非负的而且衡量的是两个分布之间的差别，它常常被用做分布之间的某种距离。然而，它并非真的距离由于它不是对称的：对于某些 $P$ 和 $Q$，$DKL(P||Q) ̸= DKL(Q||P)$。这种非对称性意味着选择 $DKL(P||Q)$ 仍是$DKL(Q||P)$ 影响很大

交叉熵（cross-entropy）
\[ H(P, Q) = H(P) + D_{KL}(P||Q) = -E_{X\sim P}logQ(x) \]
交叉熵和 KL 散度很像可是缺乏左边一项。针对 Q 最小化交叉熵等价于最小化 KL 散度，由于 Q 并不参与被省略的那一项

一种极具毁灭性的舍入偏差是 下溢（underflow）。当接近零的数被四舍五入为零时发生下溢。许多函数在其参数为零而不是一个很小的正数时才会表现出质的不一样。另外一个极具破坏力的数值错误形式是 上溢（overflow）。当大量级的数被近似为$\infty$ 或 $-\infty$ 时发生上溢。进一步的运算一般会致使这些无限值变为非数字。必须对上溢和下溢进行数值稳定的一个例子是 softmax 函数（softmax function）。softmax 函数常常用于预测与 Multinoulli 分布相关联的几率，定义为
\[ softmax(x)_i = \frac{exp(x_i)}{\sum_{j=1}^n exp(x_j)} \]
对于 $softmax(x)$ 的上溢和下溢问题，能够经过计算 $softmax(z)$ 同时解决，其中 $z = x - max_i x_i$ 。减去 $max_i x_i$ 致使 exp 的最大参数为 0，这排除了上溢的可能性。一样地，分母中至少有一个值为 1 的项，这就排除了因分母下溢而致使被零除的可能性

条件数表征函数相对于输入的微小变化而变化的快慢程度。输入被轻微扰动而迅速改变的函数对于科学计算来讲多是有问题的，由于输入中的舍入偏差可能致使输出的巨大变化

对于函数 $ f(x) = A^{-1}x $。当 $A \in R^{n × n}$具备特征值分解时，其条件数为
\[ max_{i,j} |\frac{\lambda_i}{\lambda_j}| \]
这是最大和最小特征值的模之比1。当该数很大时，矩阵求逆对输入的偏差特别敏感

咱们把要最小化或最大化的函数称为 目标函数（objective function）或 准则（criterion）。当咱们对其进行最小化时，咱们也把它称为 代价函数（cost function）、损失函数（loss function）或 偏差函数（error function）

对于 $y = f(x)$，导数告诉咱们如何更改 $x$ 来略微地改善 $y$ 。例如，咱们知道对于足够小的 $\epsilon$ 来讲，$f(x − \epsilon sign(f′(x)))$ 是比 $f(x) $小的。所以咱们能够将 $x$ 往导数的反方向移动一小步来减少 $f(x)$。这种技术被称为 梯度降低（gradient descent）

当 $f′(x) = 0$，导数没法提供往哪一个方向移动的信息。 $f′(x) = 0$ 的点称为 临界点（critical point）或 驻点（stationary point）。一个 局部极小点（local minimum）意味着这个点的 f(x) 小于全部邻近点，所以不可能经过移动无穷小的步长来减少 $f(x)$ 。一个 局部极大点（local maximum）意味着这个点的 $f(x)$ 大于全部邻近点，所以不可能经过移动无穷小的步长来增大 $f(x)$。有些临界点既不是最小点也不是最大点。这些点被称为 鞍点（saddle point）。使 f(x) 取得绝对的最小值（相对全部其余值）的点是 全局最小点（global minimum）。函数可能只有一个全局最小点或存在多个全局最小点，还可能存在不是全局最优的局部极小点

有时候，在 x 的全部可能值下最大化或最小化一个函数 f(x) 不是咱们所但愿的。相反，咱们可能但愿在 x 的某些集合 S 中找 f(x) 的最大值或最小值。这被称为 约束优化（constrained optimization）。在约束优化术语中，集合 S 内的点 x 被称为 可行（feasible）点