从K近邻算法距离度量谈到KD树SIFT+BBF算法Word下载.docx

资源描述

从K近邻算法距离度量谈到KD树SIFT+BBF算法Word下载.docx

《从K近邻算法距离度量谈到KD树SIFT+BBF算法Word下载.docx》由会员分享，可在线阅读，更多相关《从K近邻算法距离度量谈到KD树SIFT+BBF算法Word下载.docx（66页珍藏版）》请在冰点文库上搜索。

从K近邻算法距离度量谈到KD树SIFT+BBF算法Word下载.docx

∙1.欧氏距离，最常见的两点之间或多点之间的距离表示法，又称之为欧几里得度量，它定义于欧几里得空间中，如点x=（x1,...,xn）和y=（y1,...,yn）之间的距离为：

（1）二维平面上两点a（x1,y1）与b（x2,y2）间的欧氏距离：

（2）三维空间两点a（x1,y1,z1）与b（x2,y2,z2）间的欧氏距离：

（3）两个n维向量a（x11,x12,…,x1n）与b（x21,x22,…,x2n）间的欧氏距离：

　　也可以用表示成向量运算的形式：

其上，二维平面上两点欧式距离，代码可以如下编写：

1.//unixfy：

计算欧氏距离

2.double

euclideanDistance（const

vector<

double>

v1,

const

v2）

3.{

assert（v1.size（）

v2.size（））;

double

ret

0.0;

for

（vector<

size_type

v1.size（）;

++i）

{

（v1[i]

v2[i]）

v2[i]）;

}

10.

return

sqrt（ret）;

11.

∙2.曼哈顿距离，我们可以定义曼哈顿距离的正式意义为L1-距离或城市区块距离，也就是在欧几里得空间的固定直角坐标系上两点所形成的线段对轴产生的投影的距离总和。

例如在平面上，坐标（x1,

y1）的点P1与坐标（x2,

y2）的点P2的曼哈顿距离为：

，要注意的是，曼哈顿距离依赖座标系统的转度，而非系统在座标轴上的平移或映射。

通俗来讲，想象你在曼哈顿要从一个十字路口开车到另外一个十字路口，驾驶距离是两点间的直线距离吗？

显然不是，除非你能穿越大楼。

而实际驾驶距离就是这个“曼哈顿距离”，此即曼哈顿距离名称的来源，同时，曼哈顿距离也称为城市街区距离（City

Block

distance）。

（1）二维平面两点a（x1,y1）与b（x2,y2）间的曼哈顿距离

（2）两个n维向量a（x11,x12,…,x1n）与

b（x21,x22,…,x2n）间的曼哈顿距离

∙3.切比雪夫距离，若二个向量或二个点p

、and

q，其座标分别为

及

，则两者之间的切比雪夫距离定义如下：

，

这也等于以下Lp度量的极值：

，因此切比雪夫距离也称为L∞度量。

以数学的观点来看，切比雪夫距离是由一致范数（uniform

norm）（或称为上确界范数）所衍生的度量，也是超凸度量（injective

metric

space）的一种。

在平面几何中，若二点p及q的直角坐标系坐标为

，则切比雪夫距离为：

。

玩过国际象棋的朋友或许知道，国王走一步能够移动到相邻的8个方格中的任意一个。

那么国王从格子（x1,y1）走到格子（x2,y2）最少需要多少步？

你会发现最少步数总是max（

x2-x1

y2-y1

）

步

有一种类似的一种距离度量方法叫切比雪夫距离。

（1）二维平面两点a（x1,y1）与b（x2,y2）间的切比雪夫距离

b（x21,x22,…,x2n）间的切比雪夫距离

这个公式的另一种等价形式是

∙4.

闵可夫斯基距离（Minkowski

Distance），闵氏距离不是一种距离，而是一组距离的定义。

（1）

闵氏距离的定义

两个n维变量a（x11,x12,…,x1n）与

b（x21,x22,…,x2n）间的闵可夫斯基距离定义为：

其中p是一个变参数。

当p=1时，就是曼哈顿距离

当p=2时，就是欧氏距离

当p→∞时，就是切比雪夫距离

根据变参数的不同，闵氏距离可以表示一类的距离。

∙5.

标准化欧氏距离

（Standardized

Euclidean

distance

），标准化欧氏距离是针对简单欧氏距离的缺点而作的一种改进方案。

标准欧氏距离的思路：

既然数据各维分量的分布不一样，那先将各个分量都“标准化”到均值、方差相等。

至于均值和方差标准化到多少，先复习点统计学知识。

假设样本集X的数学期望或均值（mean）为m，标准差（standard

deviation，方差开根）为s，那么X的“标准化变量”X*表示为：

（X-m）/s，而且标准化变量的数学期望为0，方差为1。

即，样本集的标准化过程（standardization）用公式描述就是：

标准化后的值

（

标准化前的值

－

分量的均值

/分量的标准差　　

经过简单的推导就可以得到两个n维向量a（x11,x12,…,x1n）与

b（x21,x22,…,x2n）间的标准化欧氏距离的公式：

如果将方差的倒数看成是一个权重，这个公式可以看成是一种加权欧氏距离（Weighted

∙6.

马氏距离（Mahalanobis

Distance）

（1）马氏距离定义

有M个样本向量X1~Xm，协方差矩阵记为S，均值记为向量μ，则其中样本向量X到u的马氏距离表示为：

（协方差矩阵中每个元素是各个矢量元素之间的协方差Cov（X,Y），Cov（X,Y）=

E{[X-E（X）][Y-E（Y）]}，其中E为数学期望）

而其中向量Xi与Xj之间的马氏距离定义为：

若协方差矩阵是单位矩阵（各个样本向量之间独立同分布）,则公式就成了：

也就是欧氏距离了。

若协方差矩阵是对角矩阵，公式变成了标准化欧氏距离。

（2）马氏距离的优缺点：

量纲无关，排除变量之间的相关性的干扰。

「微博上的seafood高清版点评道：

原来马氏距离是根据协方差矩阵演变，一直被老师误导了，怪不得看Killian在05年NIPS发表的LMNN论文时候老是看到协方差矩阵和半正定，原来是这回事」

∙7、巴氏距离（Bhattacharyya

Distance），在统计中，Bhattacharyya距离测量两个离散或连续概率分布的相似性。

它与衡量两个统计样品或种群之间的重叠量的Bhattacharyya系数密切相关。

Bhattacharyya距离和Bhattacharyya系数以20世纪30年代曾在印度统计研究所工作的一个统计学家A.Bhattacharya命名。

同时，Bhattacharyya系数可以被用来确定两个样本被认为相对接近的，它是用来测量中的类分类的可分离性。

（1）巴氏距离的定义

对于离散概率分布

p和q在同一域

X，它被定义为：

其中：

是Bhattacharyya系数。

对于连续概率分布，Bhattacharyya系数被定义为：

在

这两种情况下，巴氏距离

并没有服从三角不等式.（值得一提的是，Hellinger距离不服从三角不等式

）。

对于多变量的高斯分布

和是手段和协方差的分布

需要注意的是，在这种情况下，第一项中的Bhattacharyya距离与马氏距离有关联。

（2）Bhattacharyya系数

Bhattacharyya系数是两个统计样本之间的重叠量的近似测量，可以被用于确定被考虑的两个样本的相对接近。

计算Bhattacharyya系数涉及集成的基本形式的两个样本的重叠的时间间隔的值的两个样本被分裂成一个选定的分区数，并且在每个分区中的每个样品的成员的数量，在下面的公式中使用

考虑样品a

和

，n是的分区数，并且

被一个

i的日分区中的样本数量的成员。

更多介绍请参看：

http:

//en.wikipedia.org/wiki/Bhattacharyya_coefficient。

∙8.汉明距离（Hammingdistance），两个等长字符串s1与s2之间的汉明距离定义为将其中一个变为另外一个所需要作的最小替换次数。

例如字符串“1111”与“1001”之间的汉明距离为2。

应用：

信息编码（为了增强容错性，应使得编码间的最小汉明距离尽可能大）。

或许，你还没明白我再说什么，不急，看下上篇blog中第78题的第3小题整理的一道面试题目，便一目了然了。

如下图所示：

1.//动态规划：

3.//f[i,j]表示s[0...i]与t[0...j]的最小编辑距离。

4.f[i,j]

min

f[i-1,j]+1,

f[i,j-1]+1,

f[i-1,j-1]+（s[i]==t[j]?

1）

6.//分别表示：

添加1个，删除1个，替换1个（相同就不用替换）。

与此同时，面试官还可以继续问下去：

那么，请问，如何设计一个比较两篇文章相似性的算法？

（这个问题的讨论可以看看这里：

（上篇blog中第78题的第3小题给出了多种方法，读者可以参看之。

同时，程序员编程艺术系列第二十八章将详细阐述这个问题）

∙9.

夹角余弦（Cosine）

，几何中夹角余弦可用来衡量两个向量方向的差异，机器学习中借用这一概念来衡量样本向量之间的差异。

（1）在二维空间中向量A（x1,y1）与向量B（x2,y2）的夹角余弦公式：

（2）

两个n维样本点a（x11,x12,…,x1n）和b（x21,x22,…,x2n）的夹角余弦

类似的，对于两个n维样本点a（x11,x12,…,x1n）和b（x21,x22,…,x2n），可以使用类似于夹角余弦的概念来衡量它们间的相似程度，即：

夹角余弦取值范围为[-1,1]。

夹角余弦越大表示两个向量的夹角越小，夹角余弦越小表示两向量的夹角越大。

当两个向量的方向重合时夹角余弦取最大值1，当两个向量的方向完全相反夹角余弦取最小值-1。

∙10.

杰卡德相似系数（Jaccard

similarity

coefficient）

杰卡德相似系数

两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数，用符号J（A,B）表示。

杰卡德相似系数是衡量两个集合的相似度一种指标。

杰卡德距离

与杰卡德相似系数相反的概念是杰卡德距离（Jaccard

杰卡德距离可用如下公式表示：

杰卡德距离用两个集合中不同元素占所有元素的比例来衡量两个集合的区分度。

（3）

杰卡德相似系数与杰卡德距离的应用

可将杰卡德相似系数用在衡量样本的相似度上。

举例：

样本A与样本B是两个n维向量，而且所有维度的取值都是0或1，例如：

A（0111）和B（1011）。

我们将样本看成是一个集合，1表示集合包含该元素，0表示集合不包含该元素。

M11

：

样本A与B都是1的维度的个数

M01：

样本A是0，样本B是1的维度的个数

M10：

样本A是1，样本B是0的维度的个数

M00：

样本A与B都是0的维度的个数

依据上文给的杰卡德相似系数及杰卡德距离的相关定义，样本A与B的杰卡德相似系数J可以表示为：

这里M11+M01+M10可理解为A与B的并集的元素个数，而M11是A与B的交集的元素个数。

而样本A与B的杰卡德距离表示为J'

∙11.皮尔逊系数（PearsonCorrelationCoefficient）

在具体阐述皮尔逊相关系数之前，有必要解释下什么是相关系数（Correlationcoefficient）与相关距离（Correlationdistance）。