机器学习--基础算法--机器学习基础

1 机器学习世界的数据

1.数据
数据整体叫数据集(data set)
每一行数据称为一个样本(sample)
除最后一列,每一列表达样本的一个特征(eature)
最后一列,称为标记(label)
第i个样本行写作X(i),第i个样本第j个特征值写作X(i),第i个样本的标记写作y(i)

2 机器学习的主要任务

机器学习的基本任务:
·分类
·回归

分类任务:二分类;多分类;多标签分类
回归任务
·结果是一个连续数字的值,而非一个类别
·如:房屋价格·市场分析·学生成绩·股票价格
·有一些算法只能解决回归问题
·有一些算法只能解决分类问题
·有一些算法的思路既能解决回归问题,又能解决分类问题

什么是机器学习
在这里插入图片描述

3 监督学习,非监督学习,半监督学习和增强学习

机器学习方法的分类
·监督学习
·非监督学习
·半监督学习
·增强学习

监督学习:
给机器的训练数据拥有“标记”或者“答案”
我们学习的大部分算法,属于监督学习算法:
·k近邻
·线性回归和多项式回归
·逻辑回归
·SVM
·决策树和随机森林

非监督学习
给机器的训练数据没有任何“标记”或者“答案”
非监督学习的意义
1对没有“标记”的数据进行分类-聚类分析
2对数据进行降维处理
·特征提取:信用卡的信用评级和人的胖瘦无关?
·特征压缩:PCA
降维处理的意义:方便可视化
3异常检测

半监督学习
一部分数据有“标记”或者“答案”,另一部分数据没有。
更常见:各种原因产生的标记缺失
通常都先使用无监督学习手段对数据做处理,之后使用监督学习手段做模型的训练和预测。

4 批量学习,在线学习,参数学习和非参数学习

机器学习的其他分类:
在线学习和批量学习(离线学习)
参数学习和非参数学习

批量学习
在这里插入图片描述
·优点:简单
·问题:如何适应环境变化?解决方案:定时重新批量学习
·缺点:每次重新批量学习,运算量巨大;在某些环境变化非常快的情况下,甚至不可能的。

在线学习
在这里插入图片描述
·优点:及时反映新的环境变化
·问题:新的数据带来不好的变化?解决方案:需要加强对数据进行监控
·其他:也适用于数据量巨大,完全无法批量学习的环境。

参数学习
一旦学到了参数,就不再需要原有的数据集

非参数学习 ·不对模型进行过多假设 ·非参数不等于没参数