机器学习中的度量——统计上的距离

      机器学习是时下流行AI技术中一个很重要的方向,不管是有监督学习仍是无监督学习都使用各类“度量”来获得不一样样本数据的差别度或者不一样样本数据的类似度。良好的“度量”能够显著提升算法的分类或预测的准确率,本文中将介绍机器学习中各类“度量”,“度量”主要由两种,分别为距离、类似度和相关系数,距离的研究主体通常是线性空间中点;而类似度研究主体是线性空间中向量;相关系数研究主体主要是分布数据。本文主要介绍统计上的距离。算法

1 马哈拉诺比斯距离——向量到某个分布的距离

      马哈拉诺比斯距离(Mahalanobis distance)是由印度统计学家马哈拉诺比斯 (英语)提出的,表示数据的协方差距离。它是一种有效的计算两个未知样本集的类似度的方法。与欧氏距离不一样的是它考虑到各类特性之间的联系(例如:一条关于身高的信息会带来一条关于体重的信息,由于二者是有关联的)而且是尺度无关的,即独立于测量尺度。对于一个均值为u=(u1,u2,…, un),协方差为Σ的分布,多变量向量x=(x1, x2, …, xn)到此分布的马哈拉诺比斯距离为:机器学习

\[{D_M}\left( x \right) = \sqrt {{{\left( {x - u\,} \right)}^T}{\Sigma ^{ - 1}}\left( {x - u} \right)} \]学习

      马哈拉诺比斯距离在某些状况下比欧几里得距离更符合实际,如图8所示:从二元正态分布中叠加100个随机抽取的散点图的等值线图,这个二元正态分布是均值为(0,0),每一个维度方差为1,且相关系数为0.5的二元正态分布。正态分布的质心点用蓝色表示,三个兴趣点分别为橙色方块、红色三角形和紫色圆圈。
计算三个兴趣点和质心点的欧几里得距离可知橙色方块<紫色圆圈<红色三角形,但从数据分布来看红色三角形从统计分布意义上应该比紫色圆圈更靠近蓝色质心点。所以欧几里得距离在这里就失效了,若是咱们用马哈拉诺比斯距离计算三个兴趣点和质心点的距离,可得橙色方块的马哈拉诺比斯距离为0.94,红色三角形的马哈拉诺比斯距离为0.04,紫色圆圈马哈拉诺比斯距离<0.01,那么三个兴趣点和蓝色质心点距离排序应该是橙色方块<红色三角形<紫色圆圈。spa


图1 马氏距离的物理意义(图源自《Integrative set enrichment testing for multiple omics platforms》

2 巴塔恰里雅距离——两个分布的距离

      巴塔恰里雅距离 (Bhattacharyya distance)。在统计学中,巴塔恰里雅距离测量两个几率分布的类似性。 它与巴塔恰里雅系数密切相关,巴塔恰里雅系数是两个统计样本或群体之间重叠量的度量。此距离以1930年代在印度统计研究所工做的统计学家Anil Kumar Bhattacharya的名字命名。对于数据集X上两个几率分布p和q, 若数据集X对应的是离散分布它们的巴塔恰里雅距离定义为orm

\[ {D_B}\left( {p,q} \right) = - \ln \left( {\sum\limits_{x \in X} {\sqrt {p\left( x \right)q\left( x \right)} } } \right)\]blog

      若数据集X对应的是连续分布,它们的巴塔恰里雅距离定义为排序

\[{D_B}\left( {p,q} \right) = - \ln \left( {\int {\sqrt {p\left( x \right)q\left( x \right)} dx} } \right)\]ip

      巴塔恰里雅距离可用于肯定所考虑的两个样本的相对接近程度。 它用于测量分类中类别的可分性,而且被认为比巴塔恰里雅距离更可靠,由于当两个类别的标准误差相同时,马哈拉诺比斯距离(见2.2章)是巴塔恰里雅距离距离的特定状况。所以,当两个类具备类似的平均值但标准误差不一样时,马哈拉诺比斯距离将趋向于零,而巴塔恰里雅距离则根据标准误差之间的差别而增加。it

相关文章
相关标签/搜索