K近邻算法PPT.pptx
《K近邻算法PPT.pptx》由会员分享,可在线阅读,更多相关《K近邻算法PPT.pptx(14页珍藏版)》请在冰点文库上搜索。
K近邻算法,什么是K-近邻算法,所谓K近邻算法,即K-NearestNeighboralgorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:
K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的邻居。
为何要找邻居?
打个比方来说,假设你来到一个陌生的村庄,现在你要找到与你有着相似特征的人群融入他们,所谓入伙。
用官方的话来说,所谓K近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是上面说的K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。
2023/5/2,2,算法举例,如上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。
问题:
给这个绿色的圆分类?
如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。
如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。
2023/5/2,3,K近邻算法内容,2023/5/2,4,K近邻模型,K近邻法使用的模型实际上对应于特征空间的划分。
模型有三个基本要素距离度量、k值的选择和分类决策规则决定。
K近邻法中,当训练集、距离度量、k值以及分类决策规则确定后,对于任何一个新的输入实例,它所属的类唯一地确定。
这相当于根据上述要素将特征空间划分为一些子空间,确定子空间里的每个点所属的类。
2023/5/2,5,K近邻的三个基本要素,距离度量特征空间中两个实例点的距离是两个实例点相似度的反映。
K近邻模型的特征空间一般是n维实数向量空间。
使用的距离是欧氏距离,但也可以是其他距离,如更一般的距离或Minkowski距离。
设特征空间是n维实数向量空间,=1,2,=1,2,的距离定义为(,)=(=1|()|)1,这里p=1;当p=2时,称为欧氏距离;当p=1时,称为曼哈顿距离;当p=时,它是各个坐标距离的最大值。
2023/5/2,6,K近邻的三个基本要素,K值的选择如果选择较小的k值,就相当于用较小的邻域中的训练实例进行预测,“学习”的近似误差会减小,只有与输入实例较近的训练实例才会对预测结果起作用。
但缺点是“学习”的估计误差会增大,预测结果会对近邻的实例点非常敏感。
换句话说,k值的减小意味着整体模型变得复杂,容易发生过拟合。
如果选择较大的k值,就相当于用较大邻域中的训练实例进行预测。
其优点是可以减少学习的估计误差。
但缺点是学习的近似误差会增大。
这时与输入实例较远的(不相似的)训练实例也会对预测起作用,使预测发生错误。
K值增大就意味着整体模型变得简单K值得选择反映了对近似误差与估计误差之间的权衡,通常由交叉验证选择最优的k.,2023/5/2,7,K近邻的三个基本要素,分类决策规则K近邻中的分类决策规则往往是多数表决,即由输入实例的K个邻近的训练实例中的多数类决定输入实例的类。
对应于经验风险最小化。
2023/5/2,8,K近邻法的实现:
kd树,构造kd树Kd树是一种对k维空间中的实例点进行存储以便对其进行快速检索的树形数据结构。
Kd树是二叉树,表示对k维空间的一个划分。
构造kd树相当于不断地用垂直于坐标轴的超平面将k维空间切分,构成一系列的k维超矩形区域。
Kd树的每个结点对应于一个k维超矩形区域。
方法:
构造根结点,使根结点对应于k维空间中包含所有实例点的超矩形区域;通过递归方法,不断地对k维空间进行切分,生成子结点。
在超矩形区域(结点)上选择一个坐标轴和在此坐标轴上的一个切分点,确定一个超平面,这个超平面通过选定的切分点并垂直于选定的坐标轴,将当前超矩形区域切分为左右两个子区域(子结点);这时,实例被分到两个子区域。
这个过程直到子区域内没有实例时终止。
在此过程中,将实例保存在相应的结点上。
2023/5/2,9,K近邻法的实现:
kd树,构造平衡kd树输入:
k维空间数据集=1,2,其中=(1,2,(),i=1,2,N;输出:
kd树开始:
构造根结点,根结点对应于包含T的k维空间的超矩形区域。
选择
(1)为坐标轴,以中所有实例的
(1)坐标的中位数为切分点,将根结点的超矩形区域切分为两个子区域。
切分由通过切分点并与坐标轴
(1)垂直的超平面实现。
重复:
对深度为j的结点,选择()为切分的坐标轴,l=jmodk+1,以该结点的区域中所有实例的()坐标的中位数为切分点,将该结点对应的超矩形区域切分为两个子区域。
切分由通过切分点并与坐标轴()垂直的超平面实现。
2023/5/2,10,K近邻法的实现:
kd树,3.直到两个子区域没有实例存在时停止。
从而形成kd树的区域划分。
例:
给定一个二维空间的数据集:
=2,3,5,4,9,6,4,7,8,1,7,2构造一个平衡kd树。
解:
根结点对应包含数据集T的矩形,选择
(1)轴,6个数据点的
(1)坐标的中位数是7,以平面
(1)=7将空间分为左、右两个子矩形(子结点);接着,左矩形以
(2)=4分为两个子矩形,右矩形以
(2)=6分为两个子矩形,如此递归,最后得到下面所示的特征空间划分和kd树。
2023/5/2,11,K近邻法的实现:
kd树,搜索kd树利用kd树可以省去大部分数据点的搜索,从而减少搜索的计算量。
这里以最近邻为例,同样的方法可以应用到K近邻。
给定一个目标点,搜索其最近邻。
首先找到包含目标点的叶结点;然后从该叶结点出发,依次回退到父结点;不断查找与目标点最邻近的结点,当确定不可能存在更近的结点时终止。
这样搜索就被限制在空间的局部区域上,效率大为提高。
包含目标点的叶结点对应包含目标点的最小超矩形区域。
以此叶结点的实例点作为当前最近点。
目标点的最近邻一定在以目标点为中心并通过当前最近点的超球体内部。
然后返回当前结点的父结点,如果父结点的另一子结点的超矩形区域与超球体相交,那么在相交的区域内寻找与目标点更近的实例点。
如果存在这样的点,将此点作为新的当前最近点。
2023/5/2,12,K近邻法的实现:
kd树,搜索kd树算法转到更上一级的父结点,继续上述过程。
如果父结点的另一子结点的超矩形区域与超球体不相交,或不存在比当前最近点更近的点,则停止搜索。
例:
给定一个如图所示的kd树,根结点为A,其子结点为B,C等。
树上共存储7个实例点;另有一个输入目标实例点S,求S的最近邻解:
首先在kd树中找到包含S的叶结点D,以点D作为近似最邻。
真正最近邻一定在以点S为中心通过点D的圆的内部。
然后返回结点D的父结点B,在结点B的另一子结点F的区域内搜索最近邻。
结点F的区域与圆不想交,不可能有最近邻。
继续返回上一级父结点A,在结点A的另一子结点C的区域内搜索最近邻。
结点C的区域与圆相交;该区域在圆内的实例点有点E,点E比点D更近,成为新的最近邻近似。
最后得到点E是点S的最近邻。
2023/5/2,13,谢谢请大家批评指正,14,2023/5/2,