荆涛
- 作品数:5 被引量:79H指数:4
- 供职机构:吉林大学更多>>
- 发文基金:国家自然科学基金吉林省科技发展计划基金国家教育部博士点基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一个基于本体主题的中文知识获取方法被引量:6
- 2007年
- 中文语言自身的特点决定了从中文自然语言文档中获取知识是非常困难的。尽管目前对中文的命名实体识别(简称为NER)已经取得了较好的效果,但是如果不借助同义词表或者类似WordNet的中文语言知识库,几乎无法正确地抽取已经识别出的实体之间的关系。文章提出了一个基于本体主题的思想进行中文知识获取的方法,该方法首次将主题思想引入领域本体,由领域专家对原始的领域本体中的概念和属性按照主题进行划分,建立起概念到主题、主题到属性的关联关系。在对一句话进行知识抽取时,通过简单的NER和直接与本体映射的方法可以识别出一句话中的部分概念、个体和属性,利用这些准确识别出的信息可以判定该句话所属的主题;该主题则进一步提供了寻找关系的线索。初步的实验结果表明与没有利用主题信息的方法相比,该方法可以取得更好的召回率和准确率。
- 车海燕孙吉贵荆涛白曦
- 关键词:主题信息知识获取语言知识库知识抽取本体映射召回率
- 基于可视布局信息的网页噪音去除算法被引量:42
- 2004年
- 主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用"布局信息"的算法相比,本文提出的算法对页面布局信息的提取更加准确,并能处理动态HTML页面.实验结果表明,该算法优于同类算法,可有效地去除网页噪音.
- 荆涛左万利
- 关键词:网页
- 面向领域网页的语义标注若干问题研究
- 为网页增加语义元数据信息,将Web页面转化为机器可理解的语义描述形式属于语义标注研究范畴。这一研究不仅对于语义Web远景早日实现至关重要,也对当今Web中各类自动化应用性能的提高具有重要作用。本文作者在深入分析前人工作的...
- 荆涛
- 关键词:语义WEB自然语言处理后缀数组逆向工程
- 文献传递
- 基于可视布局信息的网页噪音去除算法
- 主要探讨了网页中的噪音去除问题.针对单一页面中包含的丰富的可视信息,提出了一个更加精确的噪音去除算法:首先获得页面中各元素标记的布局信息,然后利用布局信息对页面进行划分,最后在此基础上去除噪音.与采用'布局信息'的算法相...
- 荆涛左万利
- 关键词:网页噪音
- 文献传递
- 中文网页语义标注:由句子到RDF表示被引量:35
- 2008年
- 语义网远景的实现需要自动化的语义标注方法.提出了一种在领域本体指导下,针对中文网页的语义标注方法.运用统计学方法与自然语言处理技术,以文档中句子为处理对象,采取识别和组合两个阶段来完成句子向RDF表示的映射.它具有以下特点:以统计方法获得领域相关词汇,构造领域词汇标注列表作为外部领域知识,降低对通用语言本体的依赖;显式的属性类型标注方法识别出句子中表达关系的词汇,标注为属性类型,利于后续关系抽取;构造句子的句法依存关系树(森林),按照依存关系对词汇进行组合,形成RDF陈述.实验结果显示此方法较基于主谓宾语法关系的语义标注方法更为有效.
- 荆涛左万利孙吉贵车海燕
- 关键词:自然语言处理关系抽取