在处理不平衡数据集时,为了降低类重叠对分类效果的影响,避免过采样造成的过拟合现象,以及欠采样造成的信息丢失问题,本文提出一种基于欠采样与属性选择的多决策树方法UAMDT(multi-decision tree based on under-sampling and attribute selection)。其首先利用Tomek link欠采样与集成欠采样两种技术相结合对数据进行处理,并获得多个平衡子集;然后在每个平衡子集上构建单决策树,采用结合信息增益和基尼指数的混合属性度量作为属性选择标准,选择最优属性作为每棵单决策树的根节点的分裂属性;最后将单决策树进行集成构建多决策树。通过对10个不平衡数据集的多个评估指标进行实验,验证了本文算法的有效性和可行性。
D-S合成方法作用的对象是基本概率指派(basic probability assign,BPA),如何生成BPA是D-S理论应用中重要且有待解决的首要步骤。针对生成BPA提出一种基于核密度估计(kernel density estimation,KDE)的BPA生成方法:训练数据用于构建基于最优化窗宽的核密度估计的数据属性模型;然后利用训练数据的核密度模型计算测试数据的密度—距离—分布值Tri-D(density-distance-distribution),通过嵌套式的方法分配Tri-D值获取测试数据对应的BPA;最后D-S合成BPA得到最终判断,通过分类准确率来判断BPA生成方法的有效性。实验通过在UCI数据集上与其他方法的分类准确率对比验证了提出方法的有效性。