【李宏毅机器学习】4、Classification_1 分类 学习笔记

李宏毅机器学习学习笔记汇总
课程链接


Classification

Probabilistic Gernerative Model 分类:概率遗传模型

找一个function,input:x,output:属于的class

  • 信用评估
    input:收入、存款、工作、年纪、过去有无欠款
    output:借钱/不借钱
  • 医疗诊断
    input:症状、年纪、性别、过往病史
    output:何种疾病
  • 手写文字识别
    input:手写文字
    output:是什么字
  • 人脸辨识
    input:一张脸的图像
    output:是哪个人
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

如何完成这个任务?

当仅仅只是将标签映射成一个数字的时候,可以把分类问题当作回归问题,但是其本身压缩了很多信息
在这里插入图片描述

强行把classification当作regression来做会遇到的问题:

使用绿色的线代表model的值为0的话,左上角小于0,右下角大于0,越右下越大,>>1。但是用regression的话,会希望蓝色点越接近1越好(太大太小都不行,所以>>1的点对于regression来说是错的点,是不好的),所以这样的两群蓝色和一群红色的点做regression,得到的不会是绿色的线(虽然人看上去他是一个好的boundary),而是紫色的分界线,因为模型会觉得,将线向右偏移,右下角的蓝色点的值就不会>>1了,会更接近1。对于regression来说,这样的function(紫色)却是比较好的。但是对于classification来说,绿色的却是比较好的

在这里插入图片描述

Ideal Alternative 理想的做法
在这里插入图片描述
在这里插入图片描述
推广到类别,生产模型
在这里插入图片描述
先验概率
在这里插入图片描述
在这里插入图片描述
假设所有点都有相同分布——高斯分布
在这里插入图片描述
在这里插入图片描述
利用局部求出高斯分布的参数,然后应用到未知的的输入,求其概率
在这里插入图片描述
如何找μ和 \sum (参数估计)——最大似然估计
最大似然估计,从样本估计出最可能的模型参数

虽然每一个高斯分布都有可能sample出这些点,但是sample出这些点的概率不一样

在这里插入图片描述
找一个概率最大的,作为估计的高斯分布
在这里插入图片描述
把正态分布拓展到二维,分别为均值和方差
在这里插入图片描述
现在可以做分类问题了

Q:箭头指向的那个概率密度函数还需要对它积分吗
A:不需要了,老师前面解释了将概率密度当成在这个样本点的概率值
A2:分子分母都在积分的时候乘dx,抵消了

在这里插入图片描述

只用二维没有办法分出来,acc只有47%
宝可梦是七维空间的一个点
在这里插入图片描述
emmm效果依旧和瞎猜一样。。。

Modifying Model 改造模型

如果把不同的高斯分布都给不同的协方差,导致model参数多,使得variance大,容易overfiting过拟合。
所以,不同的class共用一个协方差矩阵,减少参数,避免过拟合

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

直线就是线性判别函数
二分类的LDA跟线性回归来分类的结果是一样的

定义一个function的好坏:
在概率模型中,要评价的其实是高斯里的参数,产生training data的likehood,就是这组参数的好坏

所以要做的就是找一个概率分布,可以最大化地产生这些data的likehood

在这里插入图片描述

Probability Distribution 概率分布

如果假设各个维度相互独立,说明你在使用朴素贝叶斯分类器
在这里插入图片描述

妙啊!

在这里插入图片描述

接下来又是数学部分。。。

在这里插入图片描述
后验概率
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

结论

由于共用 \sum ,所以可以化简,最后得到z如下式子,可以发现是一个线性模型
在这里插入图片描述

综上,我们把一个posterior Probability后验概率 P ( C 1 x ) P(C_1|x) 写成 σ ( z ) \sigma(z) ,z又可以写成一个线性模型的样子,所以最后就是 P ( C 1 x ) = σ ( w x + b ) P(C_1|x) = \sigma(w*x+b)
从这个式子中可以看出,将 \sum 共用的时候,class 1和 class 2 的boundary是线性的,在生产模型中,我们通过一些方法得到 N 1 N_1 , N 2 N_2 μ 1 \mu^1 , μ 2 \mu^2 , \sum ,然后计算得到W和b,带入最终式子算出概率。

弹幕

  • 如果不用同一个协方差的话会多出关于x的非线性项
  • 朴素贝叶斯 到 线性分类器
  • 最后z的展开式的协方差矩阵是不是没有1,2之分了,已经假设共用matrix了

那么,假设最终是找一个W和b,那为什么要算这个概率呢,能不能直接得到W和b呢?下节讲

最后这部分推导是真的牛逼!