不平衡类问题在现实生活中普遍存在,表现为一个类的实例数明显多于另一个类的实例数,其类分布不平衡这一特征导致了传统的分类方法不能很好地处理该类问题.本文将k-means和逻辑回归模型相结合,提出一种叫做ILKL(Imbalanced Learning based on K-means and Logistic Regression)的算法处理不平衡类问题.首先,ILKL使用聚簇方法将多数类划分成一个个子簇,以重新平衡数据集,然后在相对的平衡的数据集上学习逻辑回归模型.UCI数据集上的实验结果显示,与传统方法相比,本文方法在召回率、g-mean和f-measure等指标上表现出更好的性能.
基于模式的贝叶斯分类模型是解决数据挖掘领域分类问题的一种有效方法.然而,大多数基于模式的贝叶斯分类器只考虑模式在目标类数据集中的支持度,而忽略了模式在对立类数据集合中的支持度.此外,对于高速动态变化的无限数据流环境,在静态数据集下的基于模式的贝叶斯分类器就不能适用.为了解决这些问题,提出了基于显露模式的数据流贝叶斯分类模型EPDS(Bayesian classifier algorithm based on emerging pattern for data stream).该模型使用一个简单的混合森林结构来维护内存中事务的项集,并采用一种快速的模式抽取机制来提高算法速度.EPDS采用半懒惰式学习策略持续更新显露模式,并为待分类事务在每个类下建立局部分类模型.大量实验结果表明,该算法比其他数据流分类模型有较高的准确度.