钟彬彬
- 作品数:4 被引量:26H指数:3
- 供职机构:哈尔滨工业大学计算机科学与技术学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 信息检索中的聚类分析技术被引量:10
- 2006年
- 信息检索/搜索引擎技术的快速发展使得信息的查全率有较大提高,而查准率以及人们获取信息的效率改善却不明显。文本聚类和多文档关键词的自动生成技术将有助于解决这一问题。其基本思想是对检索到的部分文档进行聚类处理,并对每类文档自动生成关键词,从而帮助用户判断各个类别的文档和检索需求是否相关。该文提出文档相关度和类别相关度的概念,并利用词频信息以及知网(HOWNET)中词的概念计算模型计算类别相关度, 将其作为聚类合并的依据。信息获取的仿真实验表明文档检索效率有较大提高。
- 刘远超王晓龙刘秉权钟彬彬
- 关键词:文档聚类关键词抽取知网
- 基于聚类分析策略的用户偏好挖掘被引量:12
- 2005年
- 利用训练文档集准确高效地挖掘隐藏的用户文本偏好和概念向量是文本信息过滤和多文档自动文摘等自然语言处理应用的关键技术之一。针对训练文本集中往往存在多个主题类别的问题,提出一种基于聚类分析策略的文本偏好挖掘方法。其基本思路是对训练文档集进行聚类处理,然后对同主题文档进行共性分析,并经过特征权值调整和特征约简,获得表示用户不同主题偏好的概念向量。实验结果表明该方法具有对用户的文本偏好刻画更加精确,对相关阈值变化不敏感等优点,可以与Rocchio等算法结合来进行用户兴趣建模。
- 刘远超王晓龙刘秉权钟彬彬
- 中文关键词抽取技术的研究
- 本文进行了以下工作:第一、为了使抽取出的关键词能覆盖文章的要点,本文首先进行文章子主题信息提取工作,在比较了各种方法之后,本文将TextTiling算法应用到隐式章节划分中.考虑到算法中参数的值是人为设定的,可能会影响到...
- 钟彬彬
- 关键词:关键词抽取粗集理论信息检索相似度计算
- 文献传递
- 基于GA的文本子主题切分中的参数优化研究被引量:3
- 2005年
- 如何正确有效地确定文档的子主题边界对于自动文摘、问答系统等自然语言处理应用是非常重要的。然而多数文档中子主题之间没有明确的标记(如小标题),这给子主题的提取带来一定的困难。文章首先分析了利用TextTiling算法进行隐式章节划分的基本原理。同时考虑到算法中人工定义参数可能会对系统的指标产生影响,利用遗传算法对其进行了优化,自动获取的参数值使系统准确率提高了7.1%。实验表明遗传算法是一种非常简单有效的参数优化方法。通过该文方法获取的参数更加适合中文文档的隐式章节划分。
- 钟彬彬刘远超徐志明
- 关键词:遗传算法参数优化