吴平博
- 作品数:5 被引量:150H指数:4
- 供职机构:清华大学计算机科学与技术系更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于时空分析的线索性事件的抽取与集成系统研究被引量:32
- 2006年
- 信息抽取技术能够提供高质量的检索服务。本文面向网络新闻事件,对人们感兴趣的事件关键信息进行了抽取和集成。系统中采用了如下的方法、策略:(1)利用句型模板构造抽取规则,然后直接从经过时间短语和空间短语识别和规范化处理的文本中抽取事件信息,从而跳过了深层句法分析,降低了实现系统的难度;(2)利用事件的规范化的时空信息关联不同文档中的同一事件,进行事件合并;(3)文档发生事件转移时对文档进行事件切分,从而解决了文档内不同事件信息的归并问题。初步实验结果表明:本文采用的方法和策略是有效的。
- 吴平博陈群秀马亮
- 关键词:计算机应用中文信息处理信息抽取时空信息
- 基于事件框架的事件相关文档的智能检索研究被引量:35
- 2003年
- 在事件相关文档的检索中 ,事件主题的迁移和分化与相似事件的干扰是影响系统性能的两个主要因素。本文提出了一种基于事件框架知识和事件主体信息的检索方法。该方法对事件相关评价函数进行了的改进 :首先 ,从事件语料中提炼出事件的框架知识、从事件文档中挖掘出表达事件主体的信息 ,然后将这些知识和信息进行向量化 ,最后利用向量化的结果对相关度评价函数进行优化。实验结果表明该方法是有效的 ,明显提高了事件相关文档的检索性能。
- 吴平博陈群秀马亮
- 关键词:计算机应用中文信息处理
- 基于事件框架的信息抽取系统被引量:45
- 2006年
- 信息抽取技术能够提供高质量的检索服务。本文提出一种基于框架的信息抽取模式并建立统一的灾难性事件框架,利用框架的继承-归纳特性简化系统实现过程,概括事件信息,并提出按时间流顺序的线索性文件抽取的输出方式。本文使用这种方法建立了一个灾难性事件信息抽取系统。实验证明本文中的方法是有效的。
- 梁晗陈群秀吴平博
- 关键词:计算机应用中文信息处理信息抽取
- 基于事件框架的主题相关文档智能检索的初步研究
- 互联网技术的发展给人们提供了广阔的获取信息的空间,怎样快速、准确、全面地从这个海量信息空间中获取用户感兴趣的主题信息成为现代信息检索技术研究的热点。而要提高检索系统的性能,除了改进和提高检索方法的性能,还必须加强对主题相...
- 吴平博
- 关键词:网页去重信息抽取
- 文献传递
- 基于特征串的大规模中文网页快速去重算法研究被引量:56
- 2003年
- 网页检索结果中 ,用户经常会得到内容相同的冗余页面 ,其中大量是由于网站之间的转载造成。它们不但浪费了存储资源 ,并给用户的检索带来诸多不便。本文依据冗余网页的特点引入模糊匹配的思想 ,利用网页文本的内容、结构信息 ,提出了基于特征串的中文网页的快速去重算法 ,同时对算法进行了优化处理。实验结果表明该算法是有效的 ,大规模开放测试的重复网页召回率达 97 3% ,去重正确率达 99 5 %。
- 吴平博陈群秀马亮
- 关键词:计算机应用中文信息处理特征串去重算法