陈集
- 作品数:1 被引量:4H指数:1
- 供职机构:重庆邮电大学计算机科学与技术学院计算机科学与技术研究所更多>>
- 发文基金:重庆市自然科学基金重庆市教育委员会科学技术研究项目教育部留学回国人员科研启动基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 中文文本分类的两步特征选择法被引量:4
- 2008年
- 针对从文集全局角度评价特征重要性的传统特征选择方法可能忽略某些重要分类特征的问题,提出两步特征选择方法.该方法首先过滤掉类别关联性不强的特征;然后根据词的统计信息将词归为各个类别的区分词,找出每个类的分类特征的最优子集;最后,将各个类别的最优子集组合起来形成最终分类特征.实验采用朴素贝叶斯作为分类器,使用IG,ECE,CC,MI和CHI等5种特征选择公式对该方法与传统方法进行比较,得到分类性能宏平均指标对比分别为91.075%对86.971%,91.122%对86.992%,91.160%对87.470%,90.253%对86.061%,90.881%对87.006%.该方法在考虑分类特征信息的同时,尽量保留传统特征选择方法中好的特征,能更好地捕获分类信息.
- 陈集樊兴华王鹏
- 关键词:中文文本分类朴素贝叶斯