[斯坦福大学2014机器学习教程笔记]第二章-模型描述

    咱们第一个学习算法是线性回归算法,在这节中,你会看到这个算法的概况,更重要的是你会了解整个监督学习过程。算法

    下面咱们来举一个例子,咱们要根据不一样房屋尺寸所售出的价格,画出个人数据集。函数

    比方说,若是你朋友的房子是1250平方尺大小,你要告诉他这房子能卖多少钱。那么,你能够作的一件事就是构建一个模型,也许是条直线,从这个数据模型上来看,也许你能够告诉你的朋友,他能以大约220000(美圆)左右的价格卖掉这个房子。学习

    这显然是一个监督学习算法的例子。由于每个例子都有一个“正确的答案”。也就是说,咱们知道了数据集中卖出的房子实际的大小以及价格。并且,它仍是一个回归问题的例子。回归指的是咱们预测一个具体的数值输出(在这个例子中也就是价格)。spa

    注意:另外一种最多见的监督学习问题被称为分类问题。咱们用它来预测离散值的输出。好比咱们观察肿瘤并试图判断它是良性仍是恶性,这是只有0和1的离散输出。设计

    更正式一点说,在监督学习里,咱们有一个数据集,它被称为一个训练集。blog

    以住房价格为例,咱们有一个房价的训练集,咱们的工做是从这个数据中学习如何预测房价。索引

    让咱们来定义一些课程中会用到的符号。变量

  • 小写m表示训练样本的数量。在这个例子中,若是咱们有47行,就意味着咱们有47个训练样本,则m=47。
  • 小写x表示输入变量或者说特征。在这个例子中,x为房子的面积。
  • 小写y表示输出变量,也就是我要预测的目标变量。在这个例子中,y为住房价格。
  • (x,y)表示一个训练样本。表格中的一行表示一个训练样本。
  • (x(i),y(i))表示第i个训练样本(一个特定的样本)。注意这个i并非幂指数,这只是训练集的一个索引,指的是这个表格中的第i行。在这个例子中,x(1)=2104,y(1)=460。

    接下来咱们看一下监督学习算法是怎么样工做的。im

    首先,咱们向学习算法提供训练集。好比咱们的房价训练集。d3

    学习算法的任务是输出一个函数,一般是用小写h表示。h表明假设函数。h是一个引导从x获得y的函数。在这个例子中,假设函数的做用就是把房子大小做为输入变量x,它会试着输出相应房子的价格预测值y。

    当咱们设计一个学习算法时,下一个须要作的事是决定怎么表示这个假设函数h,因此接下来几节咱们将学习最初的假设函数。

    怎么表达h?一种表达方式为hθ(x)=θ01x。

    这种模型被称为线性回归。这个例子是一个一元线性回归。又叫单变量线性回归。

相关文章
相关标签/搜索