python 机器学习 笔记

k-近邻算法:算法

    伪代码:网站

        1 计算已知类别数据集的中每一个点与当前点的距离排序

        2 按照距离递增排序递归

        3 选取距离最近的k个点文档

        4 返回这k个点出现频率最高的类别总结

    书中使用的例子:数据

        约会网站的选人分类 手写识别系统di

    总结:gis

        要有多维的概念, 数据集中有几个特征就应该是几维。系统

 

 

决策树:

    伪代码:(比较复杂 能够看书)

        寻找划分数据集的最好特征

        使用递归构建决策树 熵的使用

    书中使用的例子:

        动物的分类 眼镜的分类

 

朴素贝叶斯:

    伪代码:

        就是比较属于某个分类的几率大小

    书中使用的例子:

        文档分类

 

 

logistic 回归:

    梯度上升法:

        伪代码:

            1 每一个回归系数初始化为1

            重复R次:

                计算整个数据集的梯度

                使用 步长(alpha)*gradient更新回归系数的向量

            返回回归系数

    随机梯度上升:

        伪代码:

            全部回归系数初始化为1

            对数据集中的每一个样本:

                计算该样本的梯度

                使用 步长(alpha)*gradient更新回归系数的向量

            返回回归系数