第 5 章机器学习技术的应用(上)

时间 2021-03-08

标签 html 前端算法编程架构机器学习学习测试优化架构设计栏目 HTML 繁體版

原文原文链接

机器学习技术概述

让计算机在没有被显示编程的状况下具备自主学习的能力;算法

学习出特征和目标之间具体的相关性;编程

学习结果的用法: 预测, 推断(inference);架构

在架构设计和代码开发以前, 要对待解决问题进行分析, 对系统优化目标进行拆解;

问题现状分析

搞清楚系统情况, 包括算法, 数据, 运行方式, 数据与线上交互, 模块前端展现等;

优先处理 ROI(投入产出比)高的事情;
问题归因拆解

将最终的待达成目标拆解为多个可执行的具体工做;

例如: 提高购买转化率 => 用户看到曝光商品+用户进行购买 => 用户看到曝光商品+用户进行点击 AND 用户进行点击+用户进行购买;
设计指标体系

实施机器学习系统须要的指标体系:
- 监控机器学习系统自己效果好坏的指标; (例如: AUC 等离线评估指标和点击率等线上监控指标)
- 对机器学习系统所服务和影响的大系统的各方面指标; (例如: 用户平均停留时长, 平均跳出率, 平均分享率等)

若是没法衡量, 就没法优化

机器学习模型的构建流程主要包括: 样本处理+特征处理+模型训练;

又能够分为:

算法维度: 对各类数据进行逻辑处理; 描述系统逻辑的维度;

架构维度: 具体实施时经过怎样的架构实现算法逻辑; 描述具体实施方案的维度;

样本的质量决定了模型效果的好坏;

典型的点击率模型场景下, 通常存在三份日志:

涉及两项关键工做:

获取到足量, 准确的样本数据;
- 爬虫, 做弊和异常数据的去除;
- 使用统计数据验证样本的准确性; (例如: 平均点击率, 用户点击率分布)
- 移动端数据收集机制的设计; (例如: 只发送曝光的最后一个物品的信息, 配合日志获取其余曝光物品)
- 尽可能多的保留上下文信息;
在训练时对样本进行选取, 以期获得更好的训练效果;
- 样本随机打散;
  
  机器学习模型的训练和评测中, 要求样本是随机分布的;
  - 从总体样本中划分训练集和测试集, 要求是同分布的;
  - 经常使用的模型优化方法, 都会分批取样原本训练模型, 要求样本分布是随机的;
- 正负样本采样;
  
  正负样本误差严重时, 可采用正样本升采样和负样本降采样; 去除冗余样本, 边界样本, 噪声样本等, 或者随机丢弃相应比例的负样本;
- 负样本划分模型组合;
- 样本可信度处理;