k-近邻算法:算法
伪代码:网站
1 计算已知类别数据集的中每一个点与当前点的距离排序
2 按照距离递增排序递归
3 选取距离最近的k个点文档
4 返回这k个点出现频率最高的类别总结
书中使用的例子:数据
约会网站的选人分类 手写识别系统di
总结:gis
要有多维的概念, 数据集中有几个特征就应该是几维。系统
决策树:
伪代码:(比较复杂 能够看书)
寻找划分数据集的最好特征
使用递归构建决策树 熵的使用
书中使用的例子:
动物的分类 眼镜的分类
朴素贝叶斯:
伪代码:
就是比较属于某个分类的几率大小
书中使用的例子:
文档分类
logistic 回归:
梯度上升法:
伪代码:
1 每一个回归系数初始化为1
重复R次:
计算整个数据集的梯度
使用 步长(alpha)*gradient更新回归系数的向量
返回回归系数
随机梯度上升:
伪代码:
全部回归系数初始化为1
对数据集中的每一个样本:
计算该样本的梯度
使用 步长(alpha)*gradient更新回归系数的向量
返回回归系数