宋智超
- 作品数:4 被引量:58H指数:2
- 供职机构:哈尔滨理工大学更多>>
- 发文基金:教育部“新世纪优秀人才支持计划”国家自然科学基金黑龙江省普通高等学校新世纪优秀人才培养计划更多>>
- 相关领域:自动化与计算机技术电气工程更多>>
- 一种高维数据的特征选择方法及装置
- 本发明公开了一种高维数据的特征选择方法及装置,该方法包括获取待处理的原始数据集,所述原始数据集包括特征集、若干样本以及类别集,所述类别集包括每个样本的类别;计算获取所述特征集中每一个特征与类别集之间的最大信息系数MIC,...
- 孙广路宋智超陈腾何勇军
- 文献传递
- 特征选择方法中三种度量的比较研究被引量:9
- 2018年
- 不同类型数据中特征与类别以及特征与特征之间存在一定的线性和非线性相关性。针对基于不同度量的特征选择方法在不同类型数据集上选取的特征存在明显差别的问题,本文选择线性相关系数、对称不确定性和互信息三种常用的线性或非线性度量,将它们应用于基于相关性的快速特征选择方法中,对它们在基因微阵列和图像数据上的特征选择效果进行实验验证和比较。实验结果表明,基于相关性的快速特征选择方法使用线性相关系数在基因数据集上选取的特征集往往具有较好分类准确率,使用互信息在图像数据集上选取的特征集的分类效果较好,使用对称不确定性在两种类型数据上选取特征的分类效果较为稳定。
- 宋智超康健孙广路何勇军
- 关键词:线性相关系数互信息
- 基于最大信息系数和近似马尔科夫毯的特征选择方法被引量:49
- 2017年
- 最大信息系数(Maximum information coefficient,MIC)可以对变量间的线性和非线性关系,以及非函数依赖关系进行有效度量.本文首先根据最大信息系数理论,提出了一种评价各维特征间以及每维特征与类别间相关性的度量标准,然后提出了基于新度量标准的近似马尔科夫毯特征选择方法,删除冗余特征.在此基础上提出了基于特征排序和近似马尔科夫毯的两阶段特征选择方法,分别对特征的相关性和冗余性进行分析,选择有效的特征子集.在UCI和ASU上的多个公开数据集上的对比实验表明,本文提出的方法总体优于快速相关滤波(Fast correlation-based filter,FCBF)方法,与Relief F,FAST,Lasso和RFS方法相比也具有优势.
- 孙广路宋智超刘金来朱素霞何勇军
- 特征选择中度量和模型的研究
- 高维数据中存在着大量的无关和冗余信息大大影响和限制了学习模型的性能,对学习模型的时间和空间复杂度提出了更高的要求。特征选择作为机器学习和模式识别的重要组成部分,能够有效的挖掘出数据中的有效信息,在降低数据规模的同时提高学...
- 宋智超
- 文献传递