《python机器学习—预测分析核心算法》：惩罚回归算法与集成方法基本特性

时间 2020-05-20

标签 python 机器学习预测分析核心算法惩罚回归集成方法基本特性栏目 Python 繁體版

原文原文链接

参见原书 1.1-1.4节算法

1、惩罚线性回归模型机器学习

基本特性：学习

1.训练时间快，使用训练好的模型进行预测的时间也快
2.应用于高速交易、互联网广告的植入等
3.解决回归、分类问题spa

最重要的特性：
能明确指出，哪一个变量对预测结果最重要部署

普通最小二乘法(ordinary least squares,OLS)->惩罚回归方法
(OLS主要问题：过拟合)ast

惩罚回归方法：使自由度与数据规模、问题的复杂度相匹配变量

核心概念：
1.特征工程/特征提取
选择哪些变量用于对结果的预测随机数

2.自由度
统计学名词，当以样本的统计量估计整体的参数时，样本中独立或能自由变化的自变量的个数
如，一条直线的自由度为2，即须要2个独立的参数才能肯定惟一的一条直线
表示方式：与Y轴的交点与斜率互联网

利用2点肯定自由度为2的一条直线，可信度并不高方法

2、集成方法
构建多个不一样的预测模型(基学习器)，而后将其输出作某种组合做为最终的输出

某些机器学习算法输出结果不稳定->集成方法

一般，将二元决策树做为基学习器
如，x<5?(y=2):(y=1)
Q：判断值5如何产生？输出值y=1,y=2如何产生？

A：基于输入数据的二元决策树的训练

关键在于：如何产生大量的独立预测模型
一种方法投票(自举集成方法boosting aggregating)：先对训练数据随机取样，基于随机数据子集进行训练

肯定哪些特征做为预测模型的输入？
试错法，屡次迭代

早期阶段，特征过程阶段：
利用惩罚线性回归模型训练，提供基本参考：哪些变量是重要的

核心概念：
1.基学习器
单个预测模型

2.问题的复杂度
数据科学家的任务，如何平衡问题的复杂度、预测模型的复杂度和数据集规模，以得到一个最佳的可部署模型

数据集的规模一般是自由度的倍数关系
由于数据集的规模固定，须要调整模型的自由度