矩阵中每一行是一个样本,计算两个矩阵样本之间的距离,即成对距离(pair-wise distances),能够采用 sklearn 或 scipy 中的函数,方便计算。html
sklearn: sklearn.metrics.pairwise_distancespython
scipy: scipy.spatial.distance_matrix(用于 p-norm) 或 scipy.spatial.distance.cdist(全部经常使用距离 metrics)linux
比较三者的运行时间:(都计算欧式距离)服务器
import numpy as np from sklearn.metrics import pairwise_distances from scipy.spatial import distance_matrix from scipy.spatial.distance import cdist # 10-dimensional features x = np.random.rand(400000).reshape((-1, 10)) y = np.random.rand(45000).reshape((-1, 10)) def option1(): dists = pairwise_distances(x, y) def option2(): dists = distance_matrix(x, y) def option3(): dists = cdist(x, y)
使用 pycharm 在 console 里用 timeit
查看运行时间,能够发现 scipy 的 scipy.spatial.distance.cdist 函数运行时间最短,sklearn.metrics.pairwise_distances 次之,scipy.spatial.distance_matrix 运行时间最长。
dom
sklearn 在运行时,pairwise_distances 会占用大量 CPU 资源,在 linux 服务器上跑,32 个 CPU 核会都占满,这是因为 pairwise_distances 并行形成的,生成的大量子进程会占满全部 CPU 资源,即便设置 n_jobs = 1,也会有 31 个子进程生成。可能的缘由是并行的最大进程数自动设置成了 max(cpu_count() // effective_n_jobs, 1),详情请看 sklearn.utils.parallel_backend — scikit-learn 0.22。函数
scipy 的 cdist 函数又快,又没有 sklearn 的 pairwise_distances 占 CPU,计算成对距离,请用 scipy.spatial.distance.cdist。spa
sklearn.metrics.pairwise_distances -- scikit-learn
sklearn.utils.parallel_backend — scikit-learn 0.22
scipy.spatial.distance_matrix -- SciPy
scipy.spatial.distance.cdist -- SciPycode