吴恩达机器学习系列21:降维

降维(Dimensionality Reduction能够保持数据在原有特征的基础上对数据进行压缩,从 3D 降到 2D,使得数据的分布状况不发生改变,以下图:未命名图片.png算法

降维还有一个做用,就是能更好地可视化数据。好比说,如今有一个数据集,有 50 个特征,若是想经过图像来分析这个数据集,目前是作不到的,由于只能画出三维图像,也就是说特征数为 3。可是若是运用降维,把特征数从 50 降到 3,你就能够画出这个数据集,更好地观察它们之间的联系(毕竟观察图像才有最直观的感觉)。 微信


目前,最经常使用的降维算法就是主成分分析算法(Principal Component Analysis)也称为 PCA。它的工做原理是将高维数据投影到低维平面,以便最小化投影偏差的平方。例如:如今有一个二维数据,咱们使用 PCA,将它投影到一维中,以下图:机器学习

未命名图片.png

将全部的黑色叉投影到红色线上,所在的投影就是绿色叉。这么一看是否是跟咱们以前学过的线性回归有点类似呢?其实他们两个相差很大,咱们先来看线性回归:
编辑器

未命名图片.png

经过这张图能够看出,线性回归是尽可能减少数据集的 y 与假设函数值之间的偏差,也就是减少图中蓝色的线段的距离。再来看 PCA:函数

未命名图片.png

这是尽可能减小点到直线的距离,也是图中蓝色线段的长度。经过这两个图作对比,你就能更好地理解这两种算法的区别了。学习



应用 PCA 的建议

应用 PCA 能够减小对内存的使用、加速学习算法的速度、可视化高维数据。可是不要用 PCA 防止过拟合,由于应用 PCA 时,可能会抛弃某些重要的特征。还有一点,不要一上来无论三七二十一就使用 PCA,在使用 PCA 以前,先考虑一下使用 PCA 到底是为了作什么,若是不用 PCA 是否可以完成任务。spa




ps. 本篇文章是根据吴恩达机器学习课程整理的学习笔记。若是想要一块儿学习机器学习,能够关注微信公众号「SuperFeng」,期待与你的相遇。3d

请关注公众号.PNG

相关文章
相关标签/搜索