大白话5分钟带你走进人工智能-第十六节逻辑回归之分类的缘由(1)

                                                                                                                                 第十六节逻辑回归作分类的缘由(1)算法

从本节开始,咱们讲解一个新的算法,逻辑回归。多元性回归是作回归的,它真的是回归这个领域里面的一个算法。对于有监督机器学习来讲,除了作回归还能够作分类。逻辑回归是一个分类的算法。回归跟分类它俩都是有监督的机器学习,有什么区别呢?区别在于y。回归的y是负无穷到正无穷之间的若是是分类,咱们的这个地方的y就得是,通常从0开始,0是第1个分类,1是第2个分类,2是第3个分类,3是第4个分类,它是一个离散的。因此首先你拿了一份数据,得问本身这份数据是作什么的,若是是作回归,就得问谁是y,谁是目标。发现y以后,若是是回归,它必须得是连续的;若是是分类,若是y不是零散的,应该把它变成零散的。app

logistic regression,逻辑回归,有些书上也会叫作罗基斯特回归,虽然它叫回归,但它是作分类的,它跟咱们的回归有什么关系呢?咱们从简单开始来讲,二分类,二分类的y分类号只有两个,一个是0,还有一个是1,一般0称为叫负例,1称为叫正例。也就是说y这一列,它要么就是0,要么就是1。y=W^T*X,用前面的多元线性回归,能不能去作分类?机器学习

好比下面这张图:学习

横轴Tumor Size,肿瘤的大小,纵轴,Malignant,恶性的意思。 y要么是0,要么就是1,每一个红色的x是每一个样本,每一个点至关于样本点位置。若是咱们用多元线回归,就是用一条直线尽量穿过一个个的点,就是去拟合,使得mse变小。图中粉色的线是咱们拟合的曲线。怎么样把数据点分开?若是是一维的(一维就是一根直线一个轴),切成两半,只须要找一个点就能够切开。若是这条直线的区间是负无穷到正无穷,那么这个点是零。   若是升高维度是二维的,有两个轴,要把一个平面切成两半,你须要一个直线,但直线的位置就要根据已有的点来定了。区间为正无穷到负无穷的一维直线能够用0的位置来区分。由于咱们拟合的直线y=W^T*X也是一条一维的直线,咱们要把这条直线且分开,只须要找到一个X去乘以已有的w模型,可使W^T*X=0,至关于这根线的这个区分点就找到了。此时这个分界点所对应的横轴的X值就是W^T*X里面的X。咱们就能够用它作分类,能够这样表述,肿瘤的大小,小于必定的值的时候,咱们就能够标签y赋值为0,说明它没有坏。若是肿瘤大小,大于必定值的时候,咱们就就能够标签y赋值为1,说明这个地方有病变。因此若是用多元线性回归作分类的话,咱们的步骤是拟合如今已有的点,找到一条拟合的直线,而后咱们找到一个X可使得W^T*X=0的时候,这个X就能够做为拟合直线的一个分界点。将来来一条新的数据X的时候,跟已有的x比较,看它是大于仍是小于分界点X来作分类。spa

因此说多元线性回归,也能作分类。可是为何在众多的算法当中,人们没有把多元线性回归变成一个分类的算法去应用?缘由就由于下面这张图。3d

这张图就说出了一个它没有作一个分类算法的本质缘由,由于它特别容易受到一个离群值的影响。若是已有的数据点是这张图里面全部的X。异常值这个点就会把咱们的整个的拟合的直线给它拉过去。这个时候若是咱们要找到一个W^T*X=0的状况,咱们找的X就是上图中这个分界点X了,对于原来的数据来看,就会有两个数据点分错了,在图中已经标明出来。blog

对于一维来讲,咱们找的是分界点去分类;对于二维数据来讲,咱们找的是一条直线去区分。因此对二维数据来讲,若是有一个异常点,这个直线就不太知足了。咱们应该怎么去办?实际上第一张图,分界点X对应的绿色的分界线是挺好的,能区分正确的数据分类。当多了异常值以后,分界点X对应的绿色的分界线是不太好。因此咱们的想法是找到一个好的分界线。element

当多了异常值以后。若是下图中本来正确的分界点的位置来一条分界线(绿色虚线分界线),其对应的这个分界点会和以前同样也能将数据分开。get

怎么才能让你原来的线性拟合能够变成分界点在这?去掉离群值确定能够,是对数据进行变化。若是是算法变化,假如咱们不用直线去拟合,咱们用曲线去拟合,用什么样的曲线能够解决这个问题?若是是上图中S形的曲线,这个时候分界点是W^T*X=0,这个值就能够把你的负例和正例很好的分开。it

因此就会发现,你的模型来拟合已有数据的时候,不能全都用直线,对于这个例子来讲是S形的曲线比较好,因而乎人们就琢磨出了另一个曲线,sigmoid曲线,用曲线去拟合已有点,而后找到分界的位置去分类。 所以S曲线就是逻辑回归。为何叫回归?由于是用S曲线去拟合原来的点,但它的目标是找到一个分界点,对一维来讲去作分类而已,因此它叫逻辑回归,是去作分类的。

相关文章
相关标签/搜索