国家高技术研究发展计划(2006AA012197)
- 作品数:1 被引量:4H指数:1
- 相关作者:朱鲲鹏徐志明王晓龙赵玉茗更多>>
- 相关机构:哈尔滨工业大学更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于词汇集聚的文档相关性计算被引量:4
- 2008年
- 该文提出了一种基于词汇集聚的文档相关性计算方法。该方法以知网为知识库,依靠词汇集聚,将文档中存在语义关联的词语连接成链,计算各条词汇链权重,以词汇链为元素对文档进行形式化表示,最终利用文档的此种形式化表示进行相关匹配计算。该文在中图法分类的语料上,开展了文档相关性计算的实验,准确率达到了85.4%。实验结果表明,该方法在一定程度上描述了文档的语义信息,将文档间的相关比较从字符或词层面的直接比较提升到近似概念层次的比较,是一种计算文档间相关性的有效方法。
- 赵玉茗徐志明王晓龙朱鲲鹏
- 关键词:文档相关性向量空间模型