许旭阳
- 作品数:7 被引量:63H指数:4
- 供职机构:解放军信息工程大学信息工程学院更多>>
- 发文基金:国家社会科学基金国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 事件抽取技术的回顾与展望被引量:9
- 2011年
- 事件抽取技术是信息抽取领域一个重要的研究方向。近年来,在自动内容抽取等评测会议的推动下,事件抽取的研究得出了一系列理论和算法,并推出一些实用的系统。详细介绍了事件抽取的主要研究任务,重点论述和分析了事件抽取的主要方法、研究现状及关键技术,最后总结事件抽取的发展历程、事件抽取技术当前面临的挑战以及未来需要努力的方向。
- 许旭阳韩永峰宋文政
- 关键词:事件抽取信息抽取自然语言处理
- 基于事件抽取的网络新闻多文档自动摘要被引量:15
- 2012年
- 目前,有代表性的自动摘要方法是根据文本片段进行聚类,较传统方法避免了信息冗余,但网络新闻文本中有些文本片段和主题无关,影响了聚类的效果,导致最终生成的摘要不够简洁。为此,该文引入事件抽取技术,提出了一种基于事件抽取的网络新闻多文档自动摘要方法。该方法首先通过二元分类器辨析出文本中的事件和非事件;然后通过聚类将文档原来以段落或句子为单位的物理划分转化为以事件为单位的内容逻辑划分,最后通过主旨事件抽取、排序及润色,生成摘要。实验结果表明,该方法是有效的,显著提高了生成摘要的质量。
- 韩永峰许旭阳李弼程朱武斌陈刚
- 关键词:事件抽取中文信息处理聚类
- 基于条件随机场与自定义规则的时间表达式识别被引量:3
- 2011年
- 本文致力于信息抽取中时间表达式的识别与提取研究。首先针对基于规则方法时间识别的缺点,将统计序列标注模型——条件随机场应用于时间识别中,充分利用时间表达式的内部和外部特征进行时间识别,提高了时间识别的准确率。然后通过对识别结果进行分析,自定义规则对识别错误结果进行后处理,进一步提高时间识别的召回率,弥补了机器学习模型获取知识不够全面而导致的召回率偏低的问题。实验结果表明,本文方法开放测试的准确率、召回率和F-值分别到达了91.65%、88.13%和89.85%,较传统方法均有所提高,是一种有效的时间表达式识别方法。
- 许旭阳李弼程张先飞席耀一
- 关键词:条件随机场信息抽取
- 基于语义相似度的论坛话题追踪方法被引量:22
- 2011年
- 现有的话题追踪方法大多面向新闻数据,将其应用于论坛时效果不够理想。结合论坛的特点,提出一种基于语义相似度的论坛话题追踪方法。该方法首先通过构建话题和帖子的关键词表建立其文本表示模型,然后利用知网计算两个关键词表的语义相似度并以此作为帖子与话题的相关程度,最后根据相关程度实现论坛话题追踪。该方法较好地避免了向量空间模型的缺陷。实验表明,该方法能比较有效地解决面向论坛的话题追踪问题。
- 席耀一林琛李弼程周杰许旭阳
- 关键词:关键词语义相似度向量空间模型
- 论坛数据形式化表示技术研究被引量:2
- 2011年
- 随着互联网的日益发展,网络论坛已成为人们发表自身观点的重要场所。论坛数据形式化表示是论坛内容挖掘的前提。根据论坛数据的特点,利用向量空间模型表示论坛数据,并提出了一种基于多因子加权策略的特征权重计算方法。实验结果表明,该方法可以有效解决论坛数据形式化表示问题。
- 郭志刚席耀一李弼程许旭阳
- 关键词:文本表示向量空间模型
- 基于事件实例驱动的新闻文本事件抽取被引量:12
- 2011年
- 目前,事件抽取的流行方法是以事件元素或触发词进行驱动,但该方法容易导致正反例不平衡,且在语料库规模较小时存在一定的数据稀疏问题。提出了一种基于事件实例驱动的事件抽取方法。首先,从文档句子中抽取出刻画一个事件发生有代表性的特征,构成候选事件实例表示;其次,通过二元分类器对新闻文本中的事件实例与非事件实例进行分类;最后,对事件实例采用基于层次聚类的k-medoids算法完成事件抽取。该方法不仅克服了正反例失衡以及数据稀疏问题,而且解决了预先定义事件类别的局限性。实验结果验证了该方法的有效性,对比传统方法,事件抽取的准确率与召回率均获得了显著的提高。
- 许旭阳李弼程张先飞韩永峰
- 关键词:新闻文本聚类事件抽取
- 网络新闻多文档自动摘要技术研究
- 互联网的日益普及和计算机技术的不断发展给人们获取信息带来了极大的便利,但是面对海量的网络数据环境,如何获取感兴趣、有用的知识仍然是一个亟待解决的问题。在众多的研究方法中,多文档自动摘要被视为解决上述问题的有效工具之一,它...
- 许旭阳
- 关键词:网络新闻条件随机场聚类事件抽取多文档摘要
- 文献传递