原文html
全文目录前端
让计算机在没有被显示编程的状况下具备自主学习的能力;算法
学习出特征和目标之间具体的相关性;编程
学习结果的用法: 预测, 推断(inference);架构
推荐系统的本质是匹配;机器学习
推荐结果排序学习
传统的方式是利用公式来定义排序规则, 机器学习是选择具备良好描述能力的规则系统来服务于系统;测试
用户兴趣建模优化
用户兴趣的捕捉和预测, 捕捉即对用户行为的客观记录; 预测则基于行为记录对用户未来可能感兴趣的内容进行预测;架构设计
候选集召回
相似排序问题;
优势:
收集训练样本
老系统中已有的样本数据;
曝光误差(impression bias)比较小;
曝光误差: 系统是否会倾向于曝光某一类型的物品, 致使其余类型物品曝光不足, 在总体数据上产生曝光误差的问题;
收集业务规则
解决问题的模型, 多数状况下都是以逻辑回归和决策树为表明的浅层模型, 即大量的被量化的规则;
机器学习即规模化的量化规则;
量化: 将以前人工指定的规则, 利用数据和算法, 针对具体的优化目标进行量化;
规模化: 机器学习能够用相对自动化的方法让规则的数量增长几个量级;
肯定系统目标
基于老系统基础上使用机器学习技术进行技术升级和改造, 目标是和老系统一致的;
在架构设计和代码开发以前, 要对待解决问题进行分析, 对系统优化目标进行拆解;
问题现状分析
搞清楚系统情况, 包括算法, 数据, 运行方式, 数据与线上交互, 模块前端展现等;
优先处理 ROI(投入产出比)高的事情;
问题归因拆解
将最终的待达成目标拆解为多个可执行的具体工做;
例如: 提高购买转化率 => 用户看到曝光商品+用户进行购买 => 用户看到曝光商品+用户进行点击 AND 用户进行点击+用户进行购买;
设计指标体系
实施机器学习系统须要的指标体系:
若是没法衡量, 就没法优化
机器学习模型的构建流程主要包括: 样本处理+特征处理+模型训练;
又能够分为:
算法维度: 对各类数据进行逻辑处理; 描述系统逻辑的维度;
架构维度: 具体实施时经过怎样的架构实现算法逻辑; 描述具体实施方案的维度;
样本的质量决定了模型效果的好坏;
典型的点击率模型场景下, 通常存在三份日志:
涉及两项关键工做:
获取到足量, 准确的样本数据;
在训练时对样本进行选取, 以期获得更好的训练效果;
样本随机打散;
机器学习模型的训练和评测中, 要求样本是随机分布的;
正负样本采样;
正负样本误差严重时, 可采用正样本升采样
和负样本降采样
; 去除冗余样本
, 边界样本
, 噪声样本
等, 或者随机丢弃相应比例的负样本;
负样本划分模型组合;
样本可信度处理;