在机器学习领域里,最核心的两种数值计算分别是:html
今天Reinhard Hsu就来看看常见都有哪些常见的的距离计算。python
欧几里得距离,用于计算两个点之间的实际距离,计算方法是使用毕达哥拉斯定理,也就是我们中国的勾股定理。算法
对于二维平面上的两点,它们的欧式距离能够这样算:
$$
d=\sqrt{(x_1-x_2)^2+(y_1-y_2)^2}
$$机器学习
想象下你站在曼哈顿街区,须要从一个十字路口走到另外一个十字路口,没法穿过建筑,只能沿着街道走。ide
对于二维平面上的两点,它们的曼哈顿距离能够这样算:
$$
d=|x_1-x_2|+|y_1-y_2|
$$学习
单词“advice”和“advise”之间的距离是多少呢?大数据
距离是1,由于只须要替换一个字符,就能够将一个单词变换成另外一个单词。idea
海明距离用于测量长度相等的字符串之间的距离。cdn
单词“how”和“show”之间的距离是多少呢?htm
距离是1,由于只要进行1次下面的动做,就能够从一个词变换到另外一个词:
编辑距离经常使用于天然语言处理中的拼写检查,和文本类似性检查。
从距离的形式来划分的话,能够分为以下三类:
直观地测量物体从一个点到另外一个点有多远。包括欧几里得距离、余弦距离,都属于几何距离。
包括曼哈顿距离、编辑距离(Levenshtein distance)。
包括马氏距离(Mahalanobis distance)、杰卡德距离(Jaccard Distance)。
【2】大数据时代的算法