机器学习(05)——主要概念理解

机器学习的专业术语很是多,不须要一开始理解全部的专业术语,这些术语会随着对机器学习的深刻,会慢慢理解,水到渠成。html

不过在学习的过程当中,有一些概念必需要了解,有助于后续的学习与理解,须要了解的核心概念有:监督学习、无监督学习、模型、策略、算法等。git

监督学习

监督学习,指的是学习的数据与后续测试的数据,都有答案(标签)。github

好比说,咱们本身的相片集,里面每一个人咱们都知道是谁并能够标识出来,给机器学习时,咱们将每一个单人照和对应的名字提交给机器学习模型,机器学习模型完成学习之后,咱们继续提交新的相片(单人或多人的),模型直接输出照片中每一个人的名字。而对这类有标准答案的数据集的学习,就是有监督学习。算法

监督学习主要用来处理分类与回归两类问题。apache

  • 分类:好比前面对相片的学习,输出的是相片中人物对应的名字标签,这个名字标签能够理解为分类的类别名称。百香果的酸与甜、人的性别男与女等这些离散的类别,都是机器学习中分类算法处理的目标。
  • 回归:回归类算法主要是用来预测连续值的变化。好比预测一我的工做年限与收入的变化;网站每日访问量(PV值)变化;广告投放与新增用户、消费(充值)的关系变化等等,这类数据类型的增减变化,就是回归算法预测的目标。

监督学习经常使用算法包括:K最近邻算法、朴素贝叶斯算法、线性回归算法、逻辑回归算法、决策树算法、神经网络算法、支持向量机算法、因子分解机算法等网络

无监督学习

无监督学习,指的是经过对数据的统计、分析、分类等方法处理后,从中发现数据自己的自有规律,从而提取出对应的类别、知识或模型的学习方法。能够简单理解为,数据没有标准答案,甚至咱们都不知道里面的答案,只知道有一堆数据,须要运行算法自动对这些数据进行各类分类处理,帮助咱们找出规律(分类类别)的过程。机器学习

无监督学习主要概念:函数

  • 聚类:在无监督学习中,将数据集分红由相似的对象组成多个类的过程称为聚类。

好比DNA,每一个个体都有类似与独特的地方,想要了解DNA中每一个基因的做用,就可使用无监督学习进行学习与分析,将具备不一样类型或特特征的人汇集到一块,而后根据经过对这些人的共同点进行分析,从而得出特定基因的做用。一样,无监督学习能够应用到广告系统、推荐系统、新闻分类等各种系统中,面对海量的数据,从中找出不一样的类型特征,帮助咱们更快速的找到数据的特征与共性,从而让数据发挥更多更重要的做用。学习

无监督学习经常使用算法包括:K均值算法、最大指望算法、感知机算法、主成分分析算法、奇异值分解算法等。测试

半监督学习

半监督学习是监督学习与监督学习结合的一种方法,指的是将有标签数据和无标签数据一块儿提供模型学习的方法。

咱们都知道人力成本是最贵的,若是须要对数据都打上标签,所花费的人工成本与时间成本是很可观的,何况有些数据咱们也不清楚它们的规律没法添加标签。而半监督学习,能够将已知的有价值的数据先打上标签,跟无标签数据一块儿给机器进行学习,机器训练并输出结果,咱们可对结果打上新的签标后继续提供给机器训练,从而提高预测结果,固然,若是标签标记不许确,也可能会误导训练模型,得出错误的结论。

无监督学习经常使用算法包括:协同训练算法(Co-Training)和转导支持向量机算法。

机器学习的三要素:模型、策略和算法

机器学习由模型、策略和算法组成。模型用于做出决策,策略用于评价决策,算法用于修正模型。

模型

简单的理解,指的是模子。

百度百科有两个解释我以为很贴切:

  • 人们依据研究的特定目的,在必定的假设条件下,再现原型(antetype)客体的结构、功能、属性、关系、过程等本质特征的物质形式或思惟形式。
  • 对研究的实体进行必要的简化,并用适当的变现形式或规则把它的主要特征描述出来。所获得的系统模仿品称之为模型。

机器学习中的模型,就是为了预测和分析指定的目标,运行已知的策略和算法,所构建的学习统计模型,经过对数据的学习(统计分析和找出其几率分布规律),最终能对目标进行准确预测。

策略

在百度百科中解释为:

策略,指计策;谋略。通常是指能够实现目标的方案集合;根据形势发展而制定的行动方针和斗争方法.

在机器学习中的策略,指的是实现模型方案集合的最优解。要实现同一个目标(模型),有无数种解决方案,而不一样的解决方案各有优劣,在监督学习中引入了损失函数,来找出最优化的模型。

算法

在百度百科中解释为:

算法(Algorithm)是指解题方案的准确而完整的描述,是一系列解决问题的清晰指令,算法表明着用系统的方法描述解决问题的策略机制。

算法简单理解,就是计算方法。在机器学习中,用什么样的计算方法,来帮助机器学习模型和策略,快速、高效、准确的计算出结果。在海量的数据与几何级复杂度的数据中,找出数据分布规律和几率,也是至关困难的,而机器学习算法模型中,提供了梯度降低、降维等算法,来求解出最优解,减小过拟合等各类问题。

算法项目的两个脉络

 (图片来自:https://www.imooc.com/read/50/article/974

问题线:业务问题 -> 机制问题 -> 模型问题

评估线:长期跟踪 <- AB实验 <- 模型评估

算法工程师对模型直接负责,对整个项目要有大局观

 


项目 -> 解决业务问题

例如:业务运营部门但愿提高业务收入

业务问题 -> 分析拆解,找出关键指标 -> 获得解决方案(公式)-> 肯定可控与不可控因素

指标1:提高新增用户量 = 渠道数 * 广告曝光量 * 用户转化比率 = 加大渠道投入 可控因素:渠道数量与广告曝光量(广告费) 不可控因素:用户转化比率 待分析问题:各渠道用户转化率差异?渠道推广投入的产出比盈亏情况?广告投放精准度与效果如何确认?相同渠道不一样时间段投放广告,用户转化率变化?不一样渠道同一时间段投放广告用户转化率有什么不一样?视频广告与图文广告对用户转化率的影响?不一样版本以及这些版本异常报告数量对用户转化率的影响?不一样品牌用户转化率?不一样机型用户转化率?是否存在刷量问题(新增用户的IP、机型、活跃变化、留存变化、在线时长、用户行为漏斗分析、充值转化比率……等问题的监控)?…… 指标2:提高用户留存 指标3:提高用户充值比例 …… 

不可控因素 -> 如何变为可控?-> 创建机器学习预测分析模型 -> 什么算法模型适合当前问题?怎么设计和得出算法公式?为何这个模型能对数据进行预测?

 

创建机器学习模型 -> 模型预测准确性?-> 算法层是否正确,对模型进行综合评估,肯定预测模型正确率指标 -> 开展AB实验进行验证 -> 经过同比、环比等多项指标,评估推荐结果正确性 -> 全量推广,长期跟踪效果


 

参考资料

https://github.com/apachecn/AiLearning/blob/master/docs/ml/1.机器学习基础.md

http://ai-start.com/ml2014/html/week1.html

https://feisky.xyz/machine-learning/basic.html

https://github.com/apachecn/scipycon-2018-sklearn-tut-zh/blob/master/1.md

https://github.com/apachecn/ml-for-humans-zh/blob/master/3.md

https://www.imooc.com/read/50/article/974

相关文章
相关标签/搜索