k近邻算法的回归问题（一文搞懂K近邻算法）

云淡风倾 2022-11-30 09:25:54

K近邻算法，英文名称为K-Nearest Neighbor，简称KNN，所以又叫做KNN算法。

K近邻算法基本原理

K近邻算法的原理很简单，看下面这个图中的左边的这个图，图中有两个类别，号表示正类，-表示负类，x表示待分类的未知样本。

如何分类这个未知样本呢？我们看离它最近的一个样本（虚线圆圈标注），这个样本是负类，所以将这个未知样本归为负类，这就是当K=1的情况。

k近邻算法的回归问题（一文搞懂K近邻算法）(1)

如果K=2，也就是要看离这个未知样本最近的两个样本，中间的图所示，发现离它最近的两个样本中，一个是正类，另一个是负类，此时，这个未知样本归为正类或者负类均可。

说明：从这里看出，K值一般去奇数，防止出现无法分类情况的出现。

如果K=3，也就是看离这个未知样本最近的三个样本，右侧的图所示，发现离它最近的三个样本中，有两个是正类，一个是负类，所以，将这个未知样本归为正类。

这就是K近邻算法的基本原理，即看离未知样本距离最近的K个样本（邻居），它们是哪个类别，就把这个未知样本归为那个类别。

K近邻算法实例

例如，我们需要按照搞笑镜头数量和打斗镜头数量对电影进行分类，分为动作片或者喜剧片。现在有以下电影题材数据。

k近邻算法的回归问题（一文搞懂K近邻算法）(2)

现在的情况是：

现在有一部未知电影《唐人街探案》，其中，搞笑镜头数量：23，打斗镜头数量：17，问题：这部电影属于动作片还是喜剧片？

根据已知的电影特征数据，绘制散点图如下。

k近邻算法的回归问题（一文搞懂K近邻算法）(3)

在上图中，

在这散点图中，若取K=1，则离这个未知样本距离最近的一个样本是“美人鱼”，属于喜剧片，所以可以判定这个未知样本（唐人街探案）属于喜剧片。

若取K=3，则离这个未知样本距离最近的三个样本是美人鱼、我的特工爷爷和功夫熊猫3，这三个样本中有两个是喜剧片，所以可以判定这个未知样本属于喜剧片。

这就是用K近邻算法对电影按照题材进行分类的基本思路。

以上是通过散点图进行定性分析，当数据比较多的时候，就需要通过计算进行定量分析。

距离的度量

从前面的分析中可以看到，我们需要判断样本之间的距离，距离有很多，最常用的就是欧氏距离，例如，给两个点，它们之间的欧氏距离为：

就个不就是初高中数学学过的两点距离公式吗？例如，计算这个未知电影和电影《美人鱼》之间的距离，计算公式为：

按照类似的方式可以将未知样本点和已知样本点的距离都计算出来，并按照升序排列，如下所示。

k近邻算法的回归问题（一文搞懂K近邻算法）(4)

假定K=3，距离最近的三部电影为：美人鱼、我的特工爷爷和功夫熊猫3，这三部电影中有两部是喜剧片，一部是动作片，因此判定这个未知电影是喜剧片。

通过这个例子，你已经掌握了K近邻算法的基本原理。

点下【分享】给小编加点料呗

免责声明：本文仅代表文章作者的个人观点，与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺，请读者仅作参考，并自行核实相关内容。文章投诉邮箱：anhduc.ph@yahoo.com