Logistic回归python实现小样例

时间 2020-05-22

原文原文链接

假设如今有一些点，咱们用一条直线对这些点进行拟合（该线称为最佳拟合直线），这个拟合过程就称做回归。
利用Logistic回归进行分类的主要思想是：根据现有数据对分类边界线创建回归公式，依次进行分类。
Logistic回归的通常过程
（1）收集数据：采用任意方法收集数据
（2）准备数据：因为须要进行距离计算，所以要求数据类型为数值型。另外，结构化数据格式则最佳
（3）分析数据：采用任意方法对数据进行分析
（4）训练算法：大部分时间将用于训练，训练的目的是为了找到最佳的分类回归系数
（5）测试算法：一旦训练步骤完成，分类将会很快
（6）使用算法：首先，咱们须要输入一些数据，并将其转换成对应的结构化数值；接着，
基于训练好的回归系数就能够对这些数值进行简单的回归计算，断定他们属于哪一个类别；在这以后，咱们就能够
在输出的类别上作一些其余分析工做
优化算法：梯度上升
优缺点：
优势：计算代价不高，易于理解和实现
缺点：容易欠拟合，分类精度可能不高。
使用数据类型：数值型和标称型数据
咱们想要的函数应该是，能接受全部的输入而后预测出类别。例如，在两个类的状况下，
上述函数输出0或1，咱们以前也接触过这种性质的函数，该函数称为海维赛德阶跃函数，
或者直接称为单位节约函数，然而，这些函数的问题在于：该函数在跳跃点上从0瞬间跳跃到1，这个瞬间过程有时很难处理，
幸亏，另外一个函数也有相似的性质，且数学上更易理解，这就是sigmoid函数。
所以为了实现Logistic回归分类器，咱们能够在每一个特征上都乘以一个回归系数，而后把全部的结果相加，
将这个总和带入sigmoid函数中，进而获得一个范围为0-1之间的数值，任何大于0.5的数据被分为1类，小于0.5的即被纳入0类。
因此，Logistic回归也能够被当作是一种几率估计。
肯定了分类器的函数形式后，如今的问题就变成了：最佳回归系数是多少？如何肯定他们的大小？
逻辑斯蒂回归采用梯度上升法找到最优值，咱们常常听到的是梯度降低法，实际上，只是公式中的加法变成减法，
梯度上升算法用来求函数的最大值，而梯度降低法用来求函数的最小值
训练算法：使用梯度上升算法找到最佳参数，在数据集上，咱们将经过使用梯度上升算法找到最佳回归系数，
也就是拟合logitic回归模型的最佳参数。
梯度上升法的伪代码以下：
每一个回归系数初始化为1
重复R次：
计算整个数据集的梯度
使用alpha*gradient更新回归系数的向量
返回回归系数git

 1 from numpy import *
 2 
 3 #打开文本文件并逐行读取
 4 def loadDataSet():  5     dataMat = []; labelMat = []  6     fr = open('testSet.txt')  7     for line in fr.readlines():  8         lineArr = line.strip().split()  9         dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])]) 10         labelMat.append(int(lineArr[2])) 11     return dataMat,labelMat 12 
13 #sigmod函数
14 def sigmoid(inX): 15     return 1.0/(1+exp(-inX)) 16 
17 #梯度上升算法
18 
19 def gradAscent(dataMatIn, classLabels): 20     dataMatrix = mat(dataMatIn)             #convert to NumPy matrix
21     labelMat = mat(classLabels).transpose() #convert to NumPy matrix
22     m,n = shape(dataMatrix) 23     #目标移动的步长
24     alpha = 0.001
25     #迭代次数
26     maxCycles = 500
27     weights = ones((n,1)) 28     #在for循环迭代完成后，将返回训练好的回归系数。
29     for k in range(maxCycles):              #heavy on matrix operations
30         h = sigmoid(dataMatrix*weights)     #matrix mult
31         error = (labelMat - h)              #vector subtraction
32         weights = weights + alpha * dataMatrix.transpose()* error #matrix mult
33     return weights 34 #画出数据集和logistic回归最佳拟合直线函数
35 def plotBestFit(weights): 36     import matplotlib.pyplot as plt 37     dataMat,labelMat=loadDataSet() 38     dataArr = array(dataMat) 39     n = shape(dataArr)[0] 40     xcord1 = []; ycord1 = [] 41     xcord2 = []; ycord2 = [] 42     for i in range(n): 43         if int(labelMat[i])== 1: 44             xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2]) 45         else: 46             xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2]) 47     fig = plt.figure() 48     ax = fig.add_subplot(111) 49     ax.scatter(xcord1, ycord1, s=30, c='red', marker='s') 50     ax.scatter(xcord2, ycord2, s=30, c='green') 51     x = arange(-3.0, 3.0, 0.1) 52     #最佳拟合直线
53     y = (-weights[0]-weights[1]*x)/weights[2] 54  ax.plot(x, y) 55     plt.xlabel('X1'); plt.ylabel('X2'); 56     plt.show()

梯度上升算法在每次更新回归系数时都须要遍历整个数据集，该方法在处理
100个左右的数据集尚可，但若是有数十亿样本和成千上万的特征，那么该
方法的计算复杂度就过高了。一种改进方法是依次仅用一个样本点来更新回
归系数，该方法称为随机梯度上升算法。因为能够在新样本到来时对分类器
进行增量式更新，于是随机梯度上升算法是一个在线学习算法。与‘在线学习’
相对应，依次处理全部数据被称做是“批处理”
'''
随机梯度上升算法能够写成以下的伪代码：
全部回归系数初始化为1
对数据集中每一个样本
计算该样本的梯度
使用alpha*gradient更新回归系数值
返回回归系数算法

1 def stocGradAscent0(dataMatrix, classLabels): 2     m,n = shape(dataMatrix) 3     alpha = 0.01
4     weights = ones(n)   #initialize to all ones
5     for i in range(m): 6         h = sigmoid(sum(dataMatrix[i]*weights)) 7         error = classLabels[i] - h 8         weights = weights + alpha * error * dataMatrix[i] 9     return weights

改进梯度上升算法
第一处改进：一方面，alpha在每次迭代的时候都会调整，这样能够缓解数据波动或者高频波动。
另外，虽然alpha会随着迭代次数不断减少，但永远不会减少到0，这是由于式子中还存在一个常
数项。必须这样作的缘由是为了保证在屡次迭代后新数据仍然具备必定的影响。
第二处改进是这里经过随机选取样原本更新回归系数。这种方法将减小周期的波动，
此外，改进算法还增长了一个迭代次数做为第3个参数，若是该参数没有给定的话，算法将默认迭代150次。
若是给定，那么算法将按照新的参数值进行迭代app

 1 def stocGradAscent1(dataMatrix, classLabels, numIter=150):  2     m,n = shape(dataMatrix)  3     weights = ones(n)   #initialize to all ones
 4     for j in range(numIter):  5         dataIndex = range(m)  6         for i in range(m):  7             alpha = 4/(1.0+j+i)+0.0001    #apha decreases with iteration, does not
 8             #使用logistic回归进行分类并不须要作不少宫祖宗，所须要的知识把测试集上的每一个特征向量
 9             # 乘以最优化方法的来的回归系数，再将该乘积结果求和，最后输入到sigmoid函数中便可。
10             randIndex = int(random.uniform(0,len(dataIndex)))#go to 0 because of the constant
11             h = sigmoid(sum(dataMatrix[randIndex]*weights)) 12             error = classLabels[randIndex] - h 13             weights = weights + alpha * error * dataMatrix[randIndex] 14             del(randIndex) 15     return weights 16 
17 dataArr,labelMat=loadDataSet() 18 weights=stocGradAscent1(array(dataArr),labelMat) 19 plotBestFit(weights)

小结：logistic回归的目的是寻找一个非线性函数sigmoid的最佳拟合参数，求解过程能够由最优化算法来完成。在最优化算法中，最经常使用的就是梯度上升算法，而梯度上升算法又能够简化为随机梯度上升算法dom

随机梯度上升算法与梯度上升算法的效果至关，但占用更少的计算资源，此外，随机梯度上升是一个在线算法，它能够在新数据到来时就完成参数更新，而不须要从新读取整个数据集来进行批处理运算。机器学习

机器学习的一个重要问题就是如何处理缺失数据。这个问题没有标准的答案，取决于实际应用中的需求。现有的一些解决方案，每种方案都各有优缺点。函数