《python机器学习—预测分析核心算法》：构建预测模型的通常流程

时间 2020-05-20

标签 python 机器学习预测分析核心算法构建模型通常流程栏目 Python 繁體版

原文原文链接

参见原书1.5节算法

构建预测模型的通常流程数据结构

问题的平常语言表述->问题的数学语言重述
重述问题、提取特征、训练算法、评估算法机器学习

熟悉不一样算法的输入数据结构：
1.提取或组合预测所需的特征
2.设定训练目标
3.训练模型
4.评估模型在训练数据上的性能表现性能

机器学习：
开发一个能够实际部署的模型的所有过程，包括对机器学习算法的理解和实际的操做学习

一般，有很是切实的缘由，致使某些算法被常常使用，了解背后的缘由测试

(1)构造一个机器学习问题
审视数据集中的数据，肯定须要作何种形式的预测
如，这些数据表明什么？如何与预测任务关联起来？优化

1.“更好的结果”->可测量可优化的具体目标
2.收集数据，表示为特征的矩阵
3.目标：已知正确的数据结果用于训练spa

<------问题重构---------<-
| |
问题的定性描述->问题的数学描述->模型训练与性能评估->模型部署开发

(2)特征提取和特征工程
特征提取： (将决定哪些特征能够用来预测目标)
把一个自由形式的各类数据(如一个文档中的字词)转换为行、列形式的数字的过程文档

特征工程：
对特征进行整理组合，以达到更富有信息量的过程

算法，提供每一个特征对最终预测结果贡献的度量
对特征打分，标识重要性

注意：数据准备和特征工程估计会占开发一个机器学习模型80%~90%的时间

一般训练100~5000个不一样的模型，而后选择与问题、数据集最匹配的模型

(3)肯定训练后模型的性能
测试集：留出一部分数据，用于测试模型的性能