付艳
- 作品数:4 被引量:63H指数:2
- 供职机构:北京大学信息科学技术学院高可信软件技术教育部重点实验室更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国博士后科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于语义内积空间模型的文本聚类算法被引量:58
- 2007年
- 现有数据聚类方法在处理文本数据,尤其是短文本数据时,由于没有考虑词之间潜在存在的相似情况,因此导致聚类效果不理想.文中针对文本数据高维度和稀疏空间的特点,提出了一种基于语义内积空间模型的文本聚类算法.算法首先利用内积空间的定义建立了针对中文概念、词和文本的相似度度量方法,然后从理论上进行了分析.最后通过一个两阶段处理过程,即向下分裂和向上聚合,完成文本数据的聚类.该方法成功用于中文短文本数据的聚类.实验表明相对于传统方法,文中提供的方法聚类质量更好.
- 彭京杨冬青唐世渭付艳蒋汉奎
- 关键词:内积空间文本聚类概念相似度
- 基于XPath的Web页面自动清洗算法
- 针对Web页面中包含大量噪声信息的问题,提出了一种基于页面布局及XPath技术的自动清洗算法。算法首先对样本页面划分形成的内容块进行有效性判定,将相似内容块在页面集中的位置信息归纳为公共XPath,再基于公共XPath识...
- 付艳杨冬青唐世渭王腾蛟高军
- 关键词:DOM
- 文献传递
- 基于实体识别的在线主题检测方法被引量:5
- 2009年
- 为提高在线主题的检测效率,作者提出了一种基于实体识别技术的在线主题检测方法,利用新闻报道中的命名实体快速判断新到达报道与历史主题的关系,从而减少对报道间文本相似度的计算。实验结果显示,本文提出的方法能够在不牺牲检测准确率的基础上,显著提高在线主题检测的效率。
- 付艳杨冬青唐世渭伍伟王腾蛟高军
- 关键词:增量聚类后缀树聚类
- Web新闻的主题检测方法研究
- 如今,Web已经成为信息量最大、应用范围最广的传播媒体。但面对着Web中的海量数据,人们依然无法解决知识匮乏的问题。Web新闻的主题检测研究为人们提供了一种由数据管理向知识管理转变的方法,它以媒体信息流为处理对象,将信息...
- 付艳
- 关键词:WEB新闻主题检测信息服务机制新闻报道文本聚类