知识卡片 逻辑回归

「逻辑回归」

线性回归的输出是连续的值,逻辑回归是广义的线性回归模型,通过sigmod函数变换后进行归一化,将输出值限定在[0,1]。

逻辑回归应用举例:垃圾短信分类

ham是正常的短信,span是垃圾短信,采用TF-IDF抽取特征由于逻辑回归的输出值是0-1,设定临界值后,判断正反例,可以进行二分类

垃圾短信的数据集:UCI Machine Learning Repository:

http://archive.ics.uci.edu/ml/datasets/SMS+Spam+Collection

代码演示参考:https://www.cnblogs.com/caiyishuai/p/11185223.html

代码演示网址来源:转载自博客园蔡军帅的文章

逻辑回归中的损失函数优化方法

坐标下降法 CD

右图中的圆圈是等高线,同一个等高线上的数值f(x,y)相同,最外围的f最大。

求解的目标是找到使f(x,y)取得最小值的x和y,本例中有两个向量x和y,随机选取一个维度进行搜索,本例中首先搜索y维度,将x维度固定,此时x=-0.5,遍历所有y的取值,如果y的取值连续可以进行网格化处理,找到能使f取得较小值的y。在图中,当y=-0.5时,f值较小,因为当y值继续增大或上升时,它会背离f=0.5000这条线(最中心的那个圆圈)而去往第二个圈f=1.4000,此时f取得值不是较小的值;然后,固定y值,继续搜索调整x,迭代搜索x和y迭,直到发现f值不再变小为止,此时记录下x和y作为优化的参数取值。

在上图中,f是非平滑的函数,红色标记的在交点处两条线所示,交点处无论向x方向还是y方向搜索,都找不到更小的值,只会变大,此时算法可能会中断运行。

往期推荐

特征工程 文本处理

知识卡片 线性回归和多元回归

好文章,我 在看❤