马哈拉诺比斯距离(马氏距离)

计算马氏距离

马氏距离用来表示数据的协方差距离。他可以有效地计算两个未知样本集的相似度,他也考虑到各种特性之间的联系。对于一个均值为 \(μ = (μ_1,μ_2,μ_3,...,μ_p)^T\),协方差矩阵为 \(\Sigma\) 的多变向量 \(x = (x_1,x_2,x_3,...,x_p)^T\) 其马氏距离为:

\[ D_M(x) = \sqrt{(x-μ)^T\Sigma^{-1}(x-μ)} \]

马氏距离也可以定义为两个服从同一分布并且协方差矩阵为 \(\Sigma\) 的随机变量 \(\vec{x}\)\(\vec{y}\) 的差异程度:

\[d(\vec{x},\vec{y}) = \sqrt{(\vec{x}-\vec{y})^T\Sigma^{-1}(\vec{x}-\vec{y})}\]

如果协方差矩阵为单位矩阵,马氏距离就简化为欧氏距离,如果协方差矩阵为对角矩阵,也可以称为正规化的欧氏距离:

\[ d(\vec{x},\vec{y}) = \sqrt{\sum_{i=1}^{p}\frac{(x_i-y_i)^2}{\sigma_i^2}}\]

理解马氏距离

如下是一个离散图

将上图的坐标轴去掉

重新建立坐标,原点就应该在这些离散点的中心位置。蓝色的坐标轴将沿着这些离散点的伸展方向建立,使得绝大多数的点都在坐标轴附近,红色的坐标轴垂直蓝色的坐标轴建立(在大于二维的场景中,尽可能保持坐标轴的建立保持最大的相斥角度,从而保证建立的坐标轴能靠近更多的点)。

在新建立的坐标轴上也应当有新的尺度来度量。常常用68-95-99.7原则:大约三分之二(68%)的点应当在一个单位之内;大约95%的点应当在两个单位之内。

按照上述方法建立的坐标轴围成的不是一个标准的圆圈,横纵坐标单位长度的不统一导致了其是一个较为扭曲的圆圈。如果将上述图形重新标准化绘制成我们较为熟悉的样子,那么坐标上的距离就成了马氏距离。

翻译自 Bottom to top explanation of the Mahalanobis distance?