多重线性回归是用回归方程描述一个因变量与多个自变量的依存关系,简称多重回归,其基本形式为:Y= a + bX1+CX2+*+NXn。学习
二项分布即重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,并且两种结果发生与否互相对立,而且相互独立,与其它各次试验结果无关,事件发生与否的几率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。优化
首先介绍似然函数求出W之后,即求出了相应的逻辑回归模型spa
优缺点:get
优势:数学
1)容易使用和解释,实用价值高的经常使用市场预测方法;it
2)它是直接对分类可能性建模,无需事先假设数据分布,这样就避免了假设分布不许确问题;io
3)能够适用于连续性和类别性自变量;class
缺点:
1)对模型中自变量多重共线性较为敏感,例如两个高度相关自变量同时放入模型,可能致使较弱的一个自变量回归符号不符合预期,符号被扭转.须要利用因子分析或者变量聚类分析等手段来选择表明性的自变量,以减小候选变量之间的相关性;
2)预测结果呈“S”型,所以从log(odds)向几率转化的过程是非线性的,在两端随着log(odds)值的变化,几率变化很小,边际值过小,slope过小,而中间几率的变化很大,很敏感.致使不少区间的变量变化对目标几率的影响没有区分度,没法肯定阀值.
注意:当X是均匀分布的时候,H(p)=log|x|,取最大值
根据已有的数据,能够求出P~(X,Y),P~(X),以及特征函数f(x,y).
拥有上述变量之后,只要知足下列等式的model都称为最大熵模型
上面对于这个约束最优化问题进行了简单的改写,这样便于咱们统一理解这个问题(凸优化问题的统一形式),也便于程序的求解。
先应用拉格朗日定理,而后将其转换到对偶问题。其中P为变量,在集合C中取值。
其中的对于左边,是原带约束优化问题的数学形式,只是将他写成了一个式子,首先在固定P的时候,求W使L(p,W)最大,这至关于在尽可能去知足它的约束。而后是min,就至关于在知足约束的状况下求最小值,即原问题的表述。
对于右边,则是对偶问题的定义,minL(P,W)是对偶函数,整个右边式子定义为原问题的对偶问题。
其中的P属于C集合,P中的惟一变量就是P(y|x),所以须要对P(y|x)求导。
上面求出了Pw(y|x),其中的分母exp(1-w0)在归一化的过程当中抵消掉了。
上面的Pw(y|x)至关于最大熵模型(只是具体形式,其中的Wi目前仍是未知数),接下来就须要求Wi,Wi能够经过对偶问题最外层的maxw求出。这样就求出了最终的最大熵模型Pw(y|x).还不明白的同窗能够对照《统计学习方法》中的具体例子来计算一遍。
最大熵模型与逻辑斯谛回归模型有相似的形式,它们又 称为对数线性模型(log linear model). 模型学习就是在 给定的训练数据条件下对模型进行极大似然估计或正则 化的极大似然估计。
转自于:http://www.dongzhuoyao.com/logistic-regression-and-max-entropymodel/