徐海瑞
- 作品数:3 被引量:4H指数:1
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于NPE的Web文本分类方法研究被引量:1
- 2011年
- 提出一种基于流形学习的文本分类方法以解决高维文本数据分类问题。利用近邻保持嵌入流形学习算法获得高维Web文本空间中的低维流形结构,采用K近邻分类器对低维流形进行分类。实验结果表明,基于流形学习的方法能获得较好的分类效果,具有稳定的性能。
- 徐海瑞张文生吴双
- 关键词:流形学习文本分类特征提取K近邻
- 基于流形正则化的文档分类算法研究
- 2012年
- 基于流形正则化框架提出一种分类算法(MLD-RLSC),以解决高维文档分类问题。该算法通过构建训练样本的最近邻图来估计数据空间的几何结构并将其作为流形正则化项,结合多变量线性回归获得高维文档的低维流形结构,并采用k近邻分类器对低维流形进行分类,得到针对多类问题的分类器。该算法能够充分利用训练样本的类别信息来帮助学习以提取有效特征。通过在Reuters-21578数据集上的实验,证明该算法的分类性能和运行速度比传统分类器有较大的提高。
- 徐海瑞张文生吴双
- 关键词:流形学习文档分类K近邻流形正则化
- 基于词间关系分析的文本特征选择算法被引量:3
- 2012年
- 传统的特征选择方法通常使用特征评价函数从原始词集中筛选出最具有类别区分能力的特征。这些方法是基于以独立的词作为语义单元的向量空间模型,忽略了词与词之间的关联关系,难以突出文本内容中的关键特征。针对传统特征选择方法的不足,本文提出一种新的基于词间关系的文本特征选择算法。该方法考虑对文本内容表示起到关键性作用的词,利用关联规则挖掘算法发现词语之间的关联关系,并且通过相关分析对强关联规则进行筛选,最终生成与类别属性密切相关的特征空间。实验结果表明,该方法更好地表示了文本的语义内容,而且分类效果优于传统算法。
- 吴双张文生徐海瑞
- 关键词:关联规则文本分类