马氏距离的定义相关资料太多了,我这里直接截图维基百科上的定义。
函数
马氏距离具备如下特色:3d
马氏距离与欧氏距离的主要区别点在于:blog
上面的内容,不少博客也总结过了。其实看完后对马氏距离并无一个很直观的认识。这里总结一下马氏距离的意义和解释为何马氏距离比欧式距离更好的检测异常点。这里的内容主要总结自如何理解马氏距离,多维Mahalanobis距离是否要用到“互相关张量”来进行描述?get
欧式距离是定义在两个点之间,维度的多少,不会使得欧式距离更复杂。欧氏距离认为多维空间是各向相同的,往哪一个方向走,意义都同样。博客
马氏距离认为各向是异向的。而各向异性的具体参数,由一个协方差矩阵表示。能够把直观协方差矩阵当成一个多维正太分布的协方差阵,那么这个分布的密度函数的等高线,就是等高线常见的椭圆。从椭圆中心到椭圆上各个方向的点的马氏距离,都是相等的。io
其中,椭圆的各个轴的方向,是协方差矩阵的特征向量。各个轴的长度正比于协方差矩阵的特征值的平方根。变量
下面用一个图来讲明一下。方法
左下角在二维空间中由一个分布产生的方块样本,这个分布的一条等高线如虚线的椭圆框所示,图中还有一个不属于该分布的圆圈样本。这是是一个典型的欧式距离会把分布外样本算的更近的例子,好比把绿色和蓝色样本单拎出来,就是左上角的图,蓝色小圆圈和中心的绿色方块更近了,这是由于单纯的欧式距离没法反应方块的分布。这种状况下,考虑用马氏距离。这里默认方块的分布能够由协方差矩阵很好描述。这样计算出的距离就像说的同样再也不是各向同性,对于方块的分布而言有个良好性质是分布的等高线上到中心的马氏距离相等了,由于马氏距离包含了方块自己分布的信息。im
进一步来理解,马氏距离能够表示为下面这样:总结
其实等效于作了个线性变换,而后在变换后的空间中求了下欧式距离。