训练样本是多维特征空间向量,其中每个训练样本带有一个类别标签。算法的训练阶段只包含存储的特征向量和训练样本的标签。
在分类阶段,k是一个用户定义的常数。一个没有类别标签的向量(查询或测试点)将被归类为最接近该点的k个样本点中最频繁使用的一类。
一般情况下,将欧氏距离作为距离度量,但是这是只适用于连续变量。在文本分类这种离散变量情况下,另一个度量——重叠度量(或海明距离)可以用来作为度量。例如对于基因表达微阵列数据,k-NN也与Pearson和Spearman相关系数结合起来使用。通常情况下,如果运用一些特殊的算法来计算度量的话,k近邻分类精度可显著提高,如运用大间隔最近邻居或者邻里成分分析法。
“多数表决”分类会在类别分布偏斜时出现缺陷。也就是说,出现频率较多的样本将会主导测试点的预测结果,因为他们比较大可能出现在测试点的K邻域而测试点的属性又是通过k邻域内的样本计算出来的。解决这个缺点的方法之一是在进行分类时将样本到k个近邻点的距离考虑进去。k近邻点中每一个的分类(对于回归问题来说,是数值)都乘以与测试点之间距离的成反比的权重。另一种克服偏斜的方式是通过数据表示形式的抽象。例如,在自组织映射(SOM)中,每个节点是相似的点的一个集群的代表(中心),而与它们在原始训练数据的密度无关。K-NN可以应用到SOM中。
最近邻居法算法
实用工具
会计科目汇编
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
个人所得税
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
工资,薪金所得计算
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
劳务报酬所得计算
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
印花计算税
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
税款滞纳金计算
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
金额大小写转换
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
按揭计算器(车贷房贷)
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
发票查询
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
应税货物或劳务
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
应税服务
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
车船税
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
房屋出租税收
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
社保费
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。
滞纳金计算
收入是指企业在销售商品、提供劳务及让渡资产使用权等日常活动中所形成的经济利益的总流入。