A-05 前向选择法和前向梯度法

时间 2019-11-10

标签选择梯度繁體版

原文原文链接

目录html

更新、更全的《机器学习》的更新网站，更有python、go、数据结构与算法、爬虫、人工智能教学等着你：http://www.javashuo.com/article/p-vozphyqp-cm.htmlpython

前向选择法和前向梯度法

因为前向选择法和前向梯度法的实现原理涉及过多的矩阵运算，本文只给出两种算法的思路。二者实现都是把矩阵中的向量运算具体化成平面几何中的向量运算。算法

1、前向选择法

前向选择法是一种典型的贪心算法。数据结构

一般用前向选择法解决线性模型的回归系数。对于一个有\(m\)个样本，每一个样本有\(n\)个特征的训练集而言，假设能够拟合一个线性模型\(Y=\omega^TX\)，其中\(Y\)是\(m*1\)的向量，\(X\)是\(m*n\)的矩阵，\(\omega\)是\(n*1\)的向量。便可经过前向选择法求得最小化该模型的参数\(\omega\)。机器学习

1.1 余弦类似度求投影

首先把矩阵\(X\)当作\(n\)个\(m*1\)的向量\(X_i \quad(i=1,2,\cdots,n)\)，以后选择与向量\(Y\)余弦类似度最大，即与\(Y\)最为接近的一个变量\(X_i\)，而后用\(X_i\)逼近\(Y\)，便可获得
\[ \hat{Y}=X_i\omega_i \]
其中\(\omega_i={\frac{<X_i,Y>}{{||X_i||}^2}}\quad\text{余弦类似度}\)，其中\(<X_i,Y>=|Y|*\cos\alpha\)，\(\alpha\)是\(X_i\)和\(Y\)的夹角。学习

上述公式所以能够认为\(\hat{Y}\)是\(Y\)在\(X_i\)上的投影。网站

获得\(Y\)的接近值\(\hat{Y}\)后既能够获得残差值为\(Y_{err}=Y-\hat{Y}\)，因为\(\hat{Y}\)是投影，则\(\hat{Y}\)和\(X_i\)是正交的，所以能够以\(Y_{err}\)为新的变量，从剩下的\(X_i\quad(i=1,2,i-1,i+2,\cdots,n)\)中，选择一个新的最接近残差\(Y_{err}\)的\(X_i\)重复上述投影和计算残差的流程，直至残差为0，中止算法。便可获得\(\omega\)。人工智能

1.2 举例

# 举例图例
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

# X1*w1
plt.annotate(xytext=(2, 5), xy=(8, 5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(6, 4.5, s='$X_1*\omega_1$', color='g')
# X2*w2
plt.annotate(xytext=(8, 5), xy=(9.3, 7.5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(9.3, 7, s='$X_2*\omega_2$', color='g')
# X1
plt.annotate(xytext=(2, 5), xy=(4, 5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(2.5, 4.5, s='$X_1$', color='g')
# X2
plt.annotate(xytext=(2, 5), xy=(3, 7), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(2, 6, s='$X_2$', color='g')
# X2
plt.annotate(xytext=(8, 5), xy=(9, 7), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(8.2, 6.5, s='$X_2$', color='g')
# Y
plt.annotate(xytext=(2, 5), xy=(8, 8), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(5, 7.5, s='$Y$', color='g')
#
plt.annotate(xytext=(8, 5), xy=(8, 8), s='', color='r',
             arrowprops=dict(arrowstyle="-", color='gray'))
plt.text(7.5, 6.5, s='$Y_1$', color='g')
#
plt.annotate(xytext=(8, 8), xy=(9.3, 7.5), s='',
             arrowprops=dict(arrowstyle="-", color='gray'))
plt.text(8.5, 8, s='$Y_2$', color='g')

plt.xlim(0, 11)
plt.ylim(2, 10)
plt.title('前向选择法举例', fontproperties=font, fontsize=20)
plt.show()

上图假设\(X\)为\(2\)维，首先能够看出，离\(Y\)最接近的是\(X_1\)，所以画出\(Y\)在\(X_1\)上的投影红线\(X_1*\omega_1\)，此时残差为灰线\(Y_1\)。因为目前只剩下\(X_2\)，因此接着用残差\(Y_1\)在\(X_2\)上投影获得红线\(X_2*\omega_2\)，若是不仅是\(X_2\)，则选择最接近\(Y_1\)的\(X_i\)。此时的\(X_1\omega_1+X_2\omega_2\)则模拟了\(Y\)，即\(\omega=[\omega_1,\omega_2]\)。spa

1.3 前向选择法优缺点

1.3.1 优势

算法对每一个\(X_i\)只作一次操做，速度快。

1.3.2 缺点

因为变量\(X_i\)之间不是正交的，因此每次都必须作投影缩小残差，因此前向选择法最后只能给出一个局部近似解。(能够考虑下面的前向梯度法)

2、前向梯度法

前向梯度法相似于前向选择法，不一样之处在于前向梯度法废除了前向选择法的投影逼近\(Y\)，取而代之的是在每次最接近\(Y\)的向量\(X_i\)的方向上移动一小步，而且向量\(X_i\)移动会不会被剔除，而是继续从\(X_i \quad(i=1,2,i-1,i,i+1,\cdots,n)\)中选择一个最接近残差\(Y_{err}\)(注：残差计算方式相似于前向选择法)的向量\(X_i\)，而后再走一小步，直至残差为0，中止算法，便可获得\(\omega\)。code

2.1 举例

# 举例图例
import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
%matplotlib inline
font = FontProperties(fname='/Library/Fonts/Heiti.ttc')

# X1
plt.annotate(xytext=(2, 5), xy=(3, 5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(2.4, 4.8, s='$\epsilon{X_1}$', color='g')
# eX1
plt.annotate(xytext=(2, 5), xy=(4, 5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(3.2, 4.8, s='$\epsilon{X_1}$', color='g')
# eX1
plt.annotate(xytext=(2, 5), xy=(5, 5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(4.2, 4.8, s='$\epsilon{X_1}$', color='g')
# eX1
plt.annotate(xytext=(2, 5), xy=(2.8, 5), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(1.9, 4.8, s='$X_1$', color='g')
# eX1
plt.annotate(xytext=(6.1, 6.2), xy=(7, 6.2), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(6.2, 6, s='$\epsilon{X_1}$', color='g')

# ex2
plt.annotate(xytext=(5, 5), xy=(6.2, 6.2), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='r'))
plt.text(5.2, 5.8, s='$\epsilon{X_2}$', color='g')
# X2
plt.annotate(xytext=(2, 5), xy=(3, 6), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(2, 5.5, s='$X_2$', color='g')
# X2
plt.annotate(xytext=(5, 5), xy=(6, 6), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(5.6, 5.5, s='$X_2$', color='g')

# Y
plt.annotate(xytext=(2, 5), xy=(8, 7), s='', color='r',
             arrowprops=dict(arrowstyle="->", color='k'))
plt.text(5, 6.2, s='$Y$', color='g')

plt.annotate(xytext=(5, 5), xy=(8, 7), s='', color='r',
             arrowprops=dict(arrowstyle="-", color='gray'))

plt.xlim(1, 9)
plt.ylim(4, 8)
plt.title('前向梯度法举例', fontproperties=font, fontsize=20)
plt.show()

上图假设\(X\)为\(2\)维，首先能够看出，离\(Y\)最接近的是\(X_1\)，所以沿着向量\(X_i\)的方向走上一段距离，此处的\(\epsilon\)是一个手动调整的超参数，走了一段距离后发现，离残差\(Y_{err}\)最近接的仍是\(X_1\)，所以继续接着走一段距离，直到走到离残差\(Y_{err}\)最近的为\(X_2\)的时候，沿着向量\(X_2\)的方向走上一段距离，发现此时残差\(Y_{err}\)离\(X_1\)更近，则沿着\(X_1\)走一段距离，直到走到最后残差为0，中止算法，便可获得\(\omega\)。

2.2 前向梯度法优缺点

2.2.1 优势

能够手动控制\(\epsilon\)的大小，便可以控制算法的精准度，若是\(\epsilon\)较小的时候算法精准度很高

2.2.2 缺点

\(\epsilon\)小，算法精准度高，同时算法迭代次数增长；\(\epsilon\)大，算法精准度下降。相似于梯度降低，这是前向梯度法较大的一个问题。(参考最小角回归法)