曹环
- 作品数:4 被引量:27H指数:2
- 供职机构:武汉大学信息管理学院更多>>
- 相关领域:自动化与计算机技术更多>>
- 利用《知网》和领域关键词集扩展方法的短文本分类研究被引量:17
- 2015年
- 【目的】实现短文本特征扩展,提高短文本分类性能。【方法】按照特征词和隐含主题两种特征粒度,分别抽取训练集中各类别的高频词和主题核心词作为领域关键词集。利用概率主题模型提取待分类文本的主题概率分布,将概率大于某一阈值的主题对应的关键词扩展到待分类文本中。借助《知网》计算待分类文本与各领域关键词集的语义相似度。【结果】与LDA模型的短文本分类算法相比,本文提出的分类算法在复旦语料、Sogou语料和微博语料上的Macro_F1分别平均提高4.9%、5.9%和4.2%,在Micro_F1上分别平均提高4.6%、6.2%和2.8%。而与VSM的短文本分类算法相比,本文方法在各语料上都提高13%以上。且实验证明结合领域高频词和主题核心词的特征扩展方法的分类性能优于仅使用领域高频词或主题核心词进行特征扩展的方法。【局限】短文本中存在很多《知网》未收录的特征词,无法利用《知网》计算相似度,影响分类效果。【结论】本文方法能有效提高短文本分类性能。
- 李湘东曹环丁丛黄莉
- 关键词:LDA知网
- 针对训练集分布偏斜问题的数字资源文本分类方法被引量:2
- 2014年
- 【目的】调整训练集分布的不均衡性,以提高科学分类体系下数字资源文本的分类性能。【方法】提出基于粒划分和LDA相结合的新方法 B-LDA,首先根据划分准则对训练集进行分割,实现粒度空间的转换,然后采用概率主题模型(LDA)对文本建模,利用类全局语义信息生成新文本,从而使训练集达到分布均衡。【结果】仿真实验结果表明:随着特征项数的变化,在不同偏斜程度训练集上F1值有2.7%至9.9%不等的提升。【局限】由于语料库规模的限制,构造训练集进行实验时,只涉及部分偏斜情况;此外,实验随机选取的两个类别的可分性会对新方法的分类性能造成影响。【结论】该方法可有效提高以图书书目信息、期刊题录信息、网页等数字资源为文本内容的分布偏斜训练集的分类性能。
- 李湘东何海红曹环黄莉
- 关键词:文本分类数字资源
- 文本分类中训练集相关数量指标的影响研究被引量:6
- 2014年
- 针对训练集对分类性能的影响,从训练集的文本数、类别数以及特征项数这三项数量指标出发进行研究。使用多因素方差分析方法及多种语料库定量探讨该三项数量指标对分类性能的影响规律。结果发现特征项数对分类性能的影响在不同的文本数和类别数时是不同的,分类性能受训练集的这三项指标的交互影响,通过对训练集的这三项指标进行优化,提出了从分类算法、特征项选择法以外提高分类性能的途径。在真实数据上的实验结果表明,该方法可有效提高分类性能。
- 李湘东曹环黄莉
- 关键词:文本分类多因素方差分析语料库
- 基于分布偏斜训练集的特征选择方法研究被引量:2
- 2015年
- 针对传统特征选择方法在处理分布偏斜问题时存在的局限性,结合分布偏斜训练集自身的特点,探讨并提出基于改进的LDA模型的特征选择方法。新方法根据类别信息强度及类偏斜程度对特征项分配不同的权重来调整数据分布的不均衡性,并根据类交叠程度降低相似主题的权重,最后利用改进的LDA模型训练分类器。与传统特征选择方法相比,改进后的LDA模型方法在不同偏斜程度训练集上整体分类性能有1.1%至4.7%的提高。新方法可有效提高分布偏斜训练集的分类性能。
- 李湘东曹环黄莉
- 关键词:文本分类