【机器学习实战】计算两个矩阵的成对距离（pair-wise distances）

时间 2019-12-17

标签机器学习实战计算两个矩阵成对距离 pair wise distances 栏目应用数学繁體版

原文原文链接

矩阵中每一行是一个样本，计算两个矩阵样本之间的距离，即成对距离（pair-wise distances），能够采用 sklearn 或 scipy 中的函数，方便计算。html

sklearn: sklearn.metrics.pairwise_distancespython

scipy: scipy.spatial.distance_matrix（用于 p-norm）或 scipy.spatial.distance.cdist（全部经常使用距离 metrics）linux

比较三者的运行时间：（都计算欧式距离）服务器

import numpy as np
from sklearn.metrics import pairwise_distances
from scipy.spatial import distance_matrix
from scipy.spatial.distance import cdist

# 10-dimensional features
x = np.random.rand(400000).reshape((-1, 10))
y = np.random.rand(45000).reshape((-1, 10))

def option1():
    dists = pairwise_distances(x, y)

def option2():
    dists = distance_matrix(x, y)

def option3():
    dists = cdist(x, y)

使用 pycharm 在 console 里用 timeit 查看运行时间，能够发现 scipy 的 scipy.spatial.distance.cdist 函数运行时间最短，sklearn.metrics.pairwise_distances 次之，scipy.spatial.distance_matrix 运行时间最长。
dom

sklearn 在运行时，pairwise_distances 会占用大量 CPU 资源，在 linux 服务器上跑，32 个 CPU 核会都占满，这是因为 pairwise_distances 并行形成的，生成的大量子进程会占满全部 CPU 资源，即便设置 n_jobs = 1，也会有 31 个子进程生成。可能的缘由是并行的最大进程数自动设置成了 max(cpu_count() // effective_n_jobs, 1)，详情请看 sklearn.utils.parallel_backend — scikit-learn 0.22。函数

scipy 的 cdist 函数又快，又没有 sklearn 的 pairwise_distances 占 CPU，计算成对距离，请用 scipy.spatial.distance.cdist。spa

References

sklearn.metrics.pairwise_distances -- scikit-learn
sklearn.utils.parallel_backend — scikit-learn 0.22
scipy.spatial.distance_matrix -- SciPy
scipy.spatial.distance.cdist -- SciPycode