针对标准K-近邻分类方法(K-Nearest Neighbor,KNN)在新样本类别预测过程中需要计算新样本与所有已标记样本距离而导致分类效率低,不能有效处理大规模数据分类的问题,本文提出一种基于数据块混合度量的加速K-近邻分类(KNN Method Based on Data Block Mixed Measurement,KNN_DBM^2)方法。该方法将数据块的混合度量引入K-NN的预测类别过程,首先将已标记的数据划分为不同的数据块,计算每个数据块的中心及数据块的混合度,当待测样本进入时,计算待测样本与所有数据块中心的距离,并选择距离待测样本最近的k个数据块,若k个数据块均为纯数据块,则根据中心标签并采用少数服从多数的原则对待测样本打标签,若存在混合度较高的数据块,则计算待测样本与该混合数据块所有样本的距离及与其他纯的数据块中心的距离,并选择最近的k个样本或中心对待测样本打标签。通过这种数据块划分及混合度量的方式,可以减少需要计算的待测样本与其他已标记样本距离的个数,提高K-近邻分类方法的预测性能。实验结果表明,本文提出的KNN_DBM^2方法能够获得较高的样本预测速度和较好的预测准确率。
针对支持向量机(support vector machine,SVM)无法对非平衡数据有效分类的问题,提出树形层次结构的非平衡SVM(imbalanced SVM method based on tree hierarchical structure,ISVM_TH)分类方法。通过衡量多数类样本与超平面之间的关系,有效区分不同类的重要性,提取关键簇,通过对关键簇进行逐层划分,构建更为合理的多数类样本树形层次结构,提取候选支持向量(candidate support vector,CSV)信息,参与SVM的训练过程,提高SVM对于非平衡数据的分类能力。实验结果表明,该方法能够有效改善SVM对于非平衡数据的分类性能,获得令人满意的泛化能力。