贺一帆
- 作品数:2 被引量:24H指数:2
- 供职机构:清华大学人文学院更多>>
- 发文基金:国家自然科学基金模式识别国家重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 网络文本分类中基于信息瓶颈的特征提取被引量:7
- 2010年
- 针对网络文本特征关键词多、新词多的特点,提出了一种基于概念特征的文本分类提取方法。应用信息瓶颈法,根据关键词在不同类标号上的分布情况完成关键词聚类。在此基础上,结合概念抽取的方法,将词聚类结果映射到知网义原,并以此作为分类特征。在网络文本语料上的分类实验显示,该方法保留了基于概念特征提取方法的鲁棒性强、特征维数低的优点,但克服了概念词典中新词无定义,需要维护更新词典的不足。
- 贺一帆江铭虎
- 关键词:文本分类特征提取
- 基于句法分析和答案分类的中文问答系统被引量:17
- 2008年
- 本文根据疑问词和谓语的距离信息对问句进行细致的句型分析,然后对答句进行浅层句法分析,在此基础上,抽取出问题特征集、答句特征集和组合特征集作为分类特征,引入最大熵模型和支持向量机训练答案抽取分类器.基于不同特征组合训练得到的分类器在五类事实性问题上进行了测试,其F值分别达到70.87%和85.75%.
- 孙昂江铭虎贺一帆陈林袁保宗
- 关键词:中文问答系统句法分析答案抽取最大熵模型支持向量机