蒋昌金
- 作品数:4 被引量:41H指数:3
- 供职机构:华南理工大学计算机科学与工程学院更多>>
- 发文基金:广东省自然科学基金广东省科技攻关计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于关键词提取的中文网页自动文摘方法研究
- 自动文摘是指由计算机将文本的中心思想或用户所需要的内容,用相同于或不同于原文的句子自动提取出来。自动文摘的生成过程,可分为文本的分析与理解、主题信息的获得和选取以及摘要的生成三个主要步骤。自动文摘的大致发展历程为:早期的...
- 蒋昌金
- 关键词:自动文摘中文网页
- 文献传递
- 受限领域中文问答系统问句分析研究被引量:2
- 2010年
- 问句分析是问答系统中一个极其重要的部分,它对后续的搜索模块和答案抽取模块有着至关重要的影响。为了提高问句分析模块的性能,对中文问答系统问句分析模块进行研究和分析,在构建领域词典的基础上实现了对问句中命名实体的识别。对问句类型的识别则采用问题类别对照表的方式来实现。在对问句进行分词、词性标注之后,提取出其中的名词、动词、形容词等实词,形成初始查询向量,最后对初始查询向量进行同义词扩展和问句类型关联词扩展。实验结果表明,通过查询向量进行查询比用问句直接查询有着更高的准确率。
- 蒋昌金彭宏马千里林正春王成
- 关键词:中文问答系统查询扩展信息检索
- 基于组合词和同义词集的关键词提取算法被引量:19
- 2010年
- 为了提高关键词的提取准确率,在对现有关键词抽取方法进行研究的基础之上,针对影响关键词提取准确率的分词技术、同义词现象等难点,提出了一种基于组合词和同义词集的关键词提取算法。该算法首先利用组合词识别算法极大地改进分词效果,能识别网页上绝大多数的新词、未登录词,为提高关键词自动抽取准确率奠定了坚实的基础;同时利用构造的同义词集,合并同义词的词频,避免了同义词在输出结果中同现;利用综合评分公式,充分考虑候选关键词的位置、长度、词性等特性。实验数据表明,该方法有较高的提取准确率。
- 蒋昌金彭宏陈建超马千里严桂夺
- 关键词:同义词集中文网页关键词提取
- 基于主题词权重和句子特征的自动文摘被引量:17
- 2010年
- 为获得高质量的自动文摘,在组合词识别算法的基础上,充分考虑词的频率、词性、词的位置、词长等因素,构建了一个词语权重计算公式,该公式能使表达主题的词和短语具有较高的权重.对句子权重的计算,则考虑了句子的内容、位置以及线索词的作用和用户偏好等.摘要的生成充分考虑了候选文摘句的相似性,避免了冗余信息的加入.对摘要的评估进行了从句子粒度到词语粒度的改进,提出了一种基于词语粒度的准确率和召回率计算方法.实验证明,该算法生成的自动文摘有着较高的质量,平均准确率达到77.1%.
- 蒋昌金彭宏陈建超马千里
- 关键词:自动文摘