韩永峰
- 作品数:7 被引量:44H指数:4
- 供职机构:解放军信息工程大学更多>>
- 发文基金:国家社会科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 事件抽取技术的回顾与展望被引量:9
- 2011年
- 事件抽取技术是信息抽取领域一个重要的研究方向。近年来,在自动内容抽取等评测会议的推动下,事件抽取的研究得出了一系列理论和算法,并推出一些实用的系统。详细介绍了事件抽取的主要研究任务,重点论述和分析了事件抽取的主要方法、研究现状及关键技术,最后总结事件抽取的发展历程、事件抽取技术当前面临的挑战以及未来需要努力的方向。
- 许旭阳韩永峰宋文政
- 关键词:事件抽取信息抽取自然语言处理
- 基于事件抽取的网络新闻多文档自动摘要被引量:15
- 2012年
- 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
- 韩永峰许旭阳李弼程朱武斌陈刚
- 关键词:事件抽取中文信息处理聚类
- 基于网络资源的实体知识库系统设计研究——以政府相关实体知识库为实例被引量:2
- 2016年
- 随着大数据时代的来临,信息知识化已成为信息管理的一个发展趋势。而知识库作为一种常见的知识存储和管理工具,其当前的构建和维护仍以手工方式为主,致使知识库中知识的覆盖范围十分有限且耗费巨大成本。针对上述问题,本文设计了一种实体知识库系统架构。该架构将命名实体相关技术进行有效整合,并利用网络在线资源自动构建中文实体知识库。在数据结构方面,提出了基于三层数据模型的数据存储管理结构,并根据网络资源各自的特点分别抽取出不同类别的知识,实现显式知识和隐式知识的获取和存储,进而为信息的知识化管理以及深层次分析提供支持。
- 周杰李弼程林琛韩永峰
- 关键词:系统设计网络资源
- 基于突发事件热度的站点地图构建算法被引量:6
- 2012年
- 为确保及时准确地获取监测网站的突发事件网络舆情数据,提出了一种基于突发事件热度的站点地图构建算法。该算法利用突发事件主题词典和改进Shark search算法采集样本网页,在此基础上对目标网站的超链接结构进行数据挖掘,完整构建出含有网站各版块突发事件热度的站点地图。以该站点地图为指导的网页采集器能够及时调整更新频率,准确采集所需网页,较好地适应监测网站的动态变化。实验表明,在站点地图的指导下,突发事件相关网页的采集有效性和效率均有明显提高。
- 陈翰韩永峰李弼程
- 关键词:站点地图突发事件网页采集网络舆情数据挖掘
- 网络新闻突发事件信息抽取技术研究
- 在网络信息爆炸时代,突发事件发生后,相关的新闻数量呈指数级增长。面对海量的网络数据,快速、准确地获取突发事件信息对网络用户和应急决策机构准确定位信息,精确把握事件发展态势至关重要。网络新闻突发事件信息抽取主要研究如何利用...
- 韩永峰
- 关键词:最大熵模型ISODATA事件抽取多文档摘要主题描述
- 文献传递
- 基于事件实例驱动的新闻文本事件抽取被引量:12
- 2011年
- 目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-medoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。
- 许旭阳李弼程张先飞韩永峰
- 关键词:新闻文本聚类事件抽取
- 一种有效的多文档文摘语义空间降维方法
- 2011年
- 基于多文档集合特征的多文档文摘生成方法在选取最优词时利用人工进行特征降维,方法过于机械,同时在回溯词.文档矩阵进行文本相似度计算时,存在对稀疏矩阵无法计算的问题。本文对话题追踪结果进行多文档文摘研究,提出一种有效的多文档文摘语义空间降维方法。新方法在整个话题范围内构造语义空间词-文档矩阵,采用奇异值分解对原始词.文档矩阵进行特征降维,同时构造能充分包含原始文档词汇信息且维数低的转换矩阵F,利用它来回溯词-文档矩阵,完成低维空间下的词相似度计算,进而完成文本单元相似度计算以及文本单元聚类,最终生成多文档自动文摘。实验结果表明,该方法能够对语义空间词.文档矩阵进行完美降维,同时避免稀疏矩阵无法计算的问题,对最终生成的多文档文摘有着很好的效果。
- 张先飞刘嵩韩永峰孙显著
- 关键词:语义空间多文档文摘特征降维奇异值分解聚类