苗邦
- 作品数:2 被引量:16H指数:2
- 供职机构:广东外语外贸大学思科信息学院更多>>
- 发文基金:国家自然科学基金广东省自然科学基金广州市越秀区科技计划项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 面向不平衡数据的特征加权聚类算法被引量:4
- 2013年
- 不平衡数据集类别分布严重倾斜,传统的聚类算法由于以提高整体学习性能为目标,往往偏向于聚集多数类,而忽视更有价值的稀有类.本文提出一种基于迭代的特征加权聚类算法,根据当前聚类后簇的特点以及特征重要性度量函数确定特征权值,利用所得权值进行下一轮聚类,直到权值稳定后结束迭代.在多个UCI不平衡数据集上的实验效果表明,本文算法能够较好地识别出重要特征并提高它们的权重,避免聚类算法过度偏向多数类,有效地提高了聚类性能.
- 蒋盛益苗邦王连喜
- 关键词:不平衡数据特征加权
- 基于一趟聚类的不平衡数据下抽样算法被引量:12
- 2012年
- 抽样是处理不平衡数据集的一种常用方法,其主要思想是改变类别的分布,缩小稀有类与多数类的分布比例差距.提出一种基于一趟聚类的下抽样方法,根据聚类后簇的特征与数据倾斜程度确定抽样比例,按照每个簇的抽样比例对该簇进行抽样,密度大的簇少抽,密度小的簇多抽或全抽.在压缩数据集的同时,保证了少数类的数量.实验结果表明,本文提出的抽样方法使不平衡数据样本具有较高的代表性,聚类与分类性能得到了提高.
- 蒋盛益苗邦余雯
- 关键词:不平衡数据