机器学习基石笔记1——在什么时候可使用机器学习(1)

时间 2019-11-21

标签机器学习基石笔记在什么时候可使用繁體版

原文原文链接

转载请注明出处：http://www.cnblogs.com/ymingjingr/p/4271742.htmlhtml

先简单介绍下这门课程，这门课是在著名的MOOC（Massive Online Open Course大型在线公开课）Coursera上的一门关于机器学习领域的课程，由国立台湾大学的年轻老师林轩田讲授。这门叫作机器学习基石的课程，共8周的课程为整个机器学习课程的上半部分，更偏重于理论和思想而非算法，主要分为四大部分来说授。算法

When can Machine Learn？在什么时候可使用机器学习？机器学习

Why can Machine Learn？为何机器能够学习？函数

How can Machine Learn？机器能够怎样学习？学习

How can Machine Learn Better？怎样能使机器学习更好？人工智能

每一大块又分为几周来说授，每周的课时分为两个大课，每一个大课通常又分为四个小块来教学，一个小块通常在十分钟到二十分钟之间。spa

以VC bound （VC限制）做为总线将整个基础课程贯通讲解了包括PLA（Perceptron learning algorithm感知器）、pocket、二元分类、线性回归（linear regression）、logistic回归（logistic regression）等等。htm

如下不用大课小课来叙述了，写起来感受怪怪的，就用章节来分别表明大课时和小课时。blog

1、The learning problem

机器学习问题。ci

Course Introduction

课程简介。

第一小节的内容就是课程简介，如上已进行了详细的介绍，这里就很少赘述。

1.2 What is Machine Learning

什么是机器学习？

在搞清这个问题以前，先要搞清什么是学习。

学习能够是人或者动物经过观察思考得到必定的技巧过程。

而机器学习与之相似，是计算机经过数据和计算得到必定技巧的过程。

注意这一对比，学习是经过观察而机器学习是经过数据（是计算机的一种观察）。

对比图如图1-1。（本笔记的图和公式如不加说明皆是出自林老师的课件，下文不会对此在作说明）

图1-1 学习与机器学习对比图 a）学习 b）机器学习

那么紧接着就是要解决上述中出现的一个新的名词"技巧"（skill）。

什么是技巧呢？技巧是一些能力表现的更加出色。

机器学习中的技巧如预测（prediction）、识别（recognition）。

来一个例子：从股票的数据中得到收益增多的这种技巧，这就是一种机器学习的例子。

那既然人也能够经过观察得到一个技巧，为何还须要机器学习呢？

这就是为何须要机器学习，简单来讲，就是两大缘由：

一些数据或者信息，人来没法获取，多是一些人没法识别的事物，或是数据信息量特别大；

另外一个缘由是人的处理知足不了需求，好比：定义不少不少的规则知足物体识别或者其余需求；在短期内经过大量信息作出判断等等。

上面说的是为何使用机器学习，那么什么状况下使用机器学习呢？是否是全部的状况都使用机器学习呢？

这里给出了三个ML（机器学习的英文缩写）的关键要素：

一、存在一个模式或者说表现可让咱们对它进行改进提升；

二、规则并不容易那么定义；

三、须要有数据。

1.3 Applications of Machine Learning

机器学习的应用。

这一小节主要介绍的就是机器学习能用在哪些方面。我的感受不是理论介绍的重点（不是说应用不重要，恰好相反，其实我的认为机器学习甚至整个计算机学科最重要的仍是应用），就简述下机器学习能够应用在在衣食住行育乐，包含了人类生活的方方面面，因此机器学习的应用场景很普遍颇有市场。

1.4 Components of Machine Learning

机器学习的组成部分。

这一小节是第一章的重点，由于它将机器学习的理论应用符号及数学知识进行表示，而如下各章内容也都是在这小节内容的基础上展开的。

从一个银行是否会发信用卡给用户的例子引出了机器学习能够分为哪几个部分（组件）。

1.输入(input)：x∈X（表明银行所掌握的用户信息）

2.输出(output)：y∈Y （是否会发信用卡给用户）

3.未知的函数，即目标函数（target function）：f：X→Y（理想的信用卡发放公式）

4.数据或者叫作资料（ data），即训练样本（ training examples）：D = {（）, ( ), …, ( )}（银行的历史记录）

5.假设（hypothesis），即前面提到的技能，可以具备更好地表现：g：X→Y （可以学习到的公式）

能够经过一个简单的流程图表示，如图1-2所示。

图1-2 机器学习的简单流程图

从图中能够清楚机器学习就是从咱们未知可是却存在的一个规则或者公式f中获得大量的数据或者说资料（训练样本），在这些资料的基础上获得一个近似于未知规则g的过程。

这么说仍是有点抽象，特别是目标函数f又是未知的，那为何还能找到一个假设g可以接近f呢？

仍是以一个更加详细的流程图来讲明这一问题，如图1-3。

图1-3 详细的机器学习流程图

这个流程图和图1-2有些不一样，其中ML被更详细的定义为机器学习算法（learning algorithm）通常用A表示。还多出来一个新的项目，就是假设空间或者叫作假设集合（hypothesis set）通常用H表示，它是包含各类各样的假设，其中包括好的假设和坏的假设，而这时A的做用就体现了，它能够从H这个集合中挑选出它认为最好的假设做为g。

注：

一、这里还要说明的是机器学习的输入在这个流程图中就变成了两个部分，一个是训练样本集，而另外一个就是假设空间H。

二、还有一点须要注意的是，咱们所说的机器学习模型在这个流程图中也不只仅是算法A，并且还包含了假设空间H。

三、要求得g来近似于未知目标函数f。

四、给出了机器学习的一个更准确点的定义，就是经过数据来计算获得一个假设g使它接近未知目标函数。

图1-3是仍是一个相对比较简单的机器学习流程图，在日后的章节中会不断的根据新学的知识继续扩展这幅图的元素。

1.5 Machine Learning and Other Fields

机器学习与其余各个领域的关系。

1.5.1 ML VS DM （Data Mining）

机器学习与数据挖掘者叫知识发现（KDD Knowledge Discovery in Dataset）。

上一节中已经给出了机器学习的概念，所以只介绍下数据挖掘的概念，就是从大量的数据中找出有用的信息。

从定义出发，咱们能够将二者之间的关系分为3种。

二者是一致的：可以找出的有用信息就是咱们要求得的近似目标函数的假设。
二者是互助的：可以找出的有用信息就能帮助咱们找出近似的假设，反之也可行。
传统的数据挖掘更关注与从大量的数据中的计算问题。

总的来时，二者密不可分。

1.5.2 M L VS AI （artificial intelligence）

机器学习与人工智能。

人工智能的大概概念就是电脑可以表现出一些智慧行为。

从定义能够获得，机器学习是实现人工智能的一种方式。

1.5.3 ML VS statistic

机器学习与统计。

统计也须要经过数据，来作一个未知的推论。

所以统计是一种实现机器学习的方法。

传统的统计学习更关注与数学公式，而非计算自己。

机器学习基石笔记1——在什么时候可使用机器学习(1)

目录