Factor_Analysis(因子分析)
Factor Analysis 简书:较好理解的解释,其中公式有必定的推导(仅展示关键步骤,细节大多须要自行补充),基本为结论式。算法
感性层面理解:首先,明确FA和PCA的区别。PCA作的是对某个样本,试图寻找到一组方差尽可能大的线性表示(基向量),以便降维;FA作的是,假想存在一些隐变量,它们影响着咱们的观测结果(即咱们获得的数据样本),咱们试图找到二者的联系:$x = \Lambda z + \mu + \epsilon$,在简书中有说明其MLE函数形式,不难看出它的MLE形式难以求解,故采用EM(机器学习之最大指望(EM)算法,讲得不错)迭代以求最优解。此外,FA一般用于$m<<n$的庆幸机器学习
心路历程:首先,我去推了一下EM,发现本身以前学的时候,因为是在GMM求解的时候须要的,因此并无很仔细地推导,因此就再去推导了一次推了我一页草稿纸。其次,没有找到:$\mu_{x_1|x_2} = \mu_1 + \Sigma_{12} \Sigma_{22}^{-1} (x_2 - \mu_2)$ 以及 $\Sigma_{1|2} = \Sigma_{11} - \Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21}$ 的公式名称,若是看官知晓其名称,望告知不才,感激涕零。最后,仍是忘记了矩阵求导,又去查了一下,而我也还没有进行公式回带和化简整合。自闭了,一大堆函数
疑问:简书做者在开头提到:因为存在隐变量,同时不能由MLE获得close form。(close form:即闭式解,通俗解释就是$\nabla f(x) = 0$的$x$表达式),这里不理解为什么没有闭式解,目前推的结果(MLE式子),大概猜想是由于$m<<n$的缘故,这样带来的结果就是$\left| \Sigma \right| = 0$(其实自己$\left| \Sigma \right|$是不等于0的,可是因为$m<<n$,因此它等于0,其实就是因为样本数量不足,或者说难以获得如此高维而且充足的样本)。显然,$\left| \Sigma \right| = 0$会在后续中遇到诸多麻烦,最容易想的就是$\Sigma$是不可逆的,这显然很难进行接下来的计算,虽然我算的很少,可是$\Sigma^{-1}$几乎都是须要的。然而,能够引入伪逆,因此确定还有我没有想到的缘由,或者说伪逆会带来较差的表现等等。学习
备注:因为博客园写推导公式较为麻烦,因此没有在博客上进行推导,不过建议看官若是并未学习过上述知识,仍是手推几回以便增强理解和记忆(固然也有一些少年仅仅看就能获得很好理解,而且运用巧妙)。好比在EM算法中,求解lower_bound以前,分子分母同乘一个量以便以后用Jensen不等式化简(orz)等等(好像其余的操做就比较平凡了)。最近闲来无事的时候,发现不少学习过的算法,特别是须要必定数学式子或者思惟来求解的(我居然想去求LCM解烤鸡??),彷佛都忘了须要求解的表达式(嘴上讲讲天花乱坠,手里推推苦思冥想),虽然求解过程都不难,可是对于我来讲,其中一些技巧仍是须要理解的有些计算量也是大啊。.net