国家自然科学基金(60083003)
- 作品数:10 被引量:85H指数:5
- 相关作者:李芳张冬茉盛焕烨姚天昉卢志坚更多>>
- 相关机构:上海交通大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术文化科学更多>>
- 多语种翻译词汇的在线自动抽取被引量:5
- 2004年
- 越来越多网页以多种语言的形式在互联网上传播 ,从中抽取多语种翻译词汇具有重要的研究价值 针对网页的特点 ,提出了一种新的多语种翻译词汇的在线自动抽取方法 该方法通过对双语网页中超链接信息相似度的计算 ,获取多语种翻译词汇 ,相似性越高 ,对应的词条互为翻译对的可能性越大 通过对中英、德英、法英 3类双语网页的抽取 ,结果证明它具有较高的准确率 。
- 原双庆李芳盛焕烨
- 关键词:超链接
- 基于RST语篇分析方法的问题回答系统的答句生成被引量:3
- 2004年
- 提出了一种问答系统中非实体类型的答句生成方法,该方法从修辞关联分析的基本原理和技术入手,应用RR分析技术进行汉语QA系统中答案抽取和生成的基本方法和步骤实现了一个实验系统。论文中给出了实验结果并进行了详细分析。 ,
- 毛新华张冬茉
- 关键词:问题回答系统答案抽取
- 中文问答系统中的问句理解被引量:15
- 2004年
- 描述了一种通过人工总结规则建立模型来理解问答系统中问句的方法。该模型采用浅层语法分析和部分语义分析相结合的方法来断定一个问句所包含的信息。
- 卢志坚张冬茉
- 关键词:问答系统问句分析语义框架
- 一种基于混合分析的汉语文本句法语义分析方法被引量:12
- 2002年
- 本文提出了一种领域相关的汉语文本句法语义分析方法。根据领域文本的特点 ,该方法将浅层句法分析和深层句法语义分析结合在了一起。其浅层句法分析部分采用有限状态层叠的方法 ,将文本中的命名实体识别出来 ,从而大大减轻了深层分析部分的负担。其深层句法语义分析部分将语义分析和语法分析结合起来 ,主要依靠词汇搭配信息来决定句子的结构。
- 尹凌姚天昉张冬茉李芳
- 关键词:句子结构
- 信息检索与信息抽取技术的研究被引量:42
- 2002年
- 在当今信息社会 ,人们对于信息获取的要求越来越高。特别是互联网的普及 ,可以很方便地从互联网上获取信息。然而目前的信息检索技术和信息抽取技术还远远不能满足人们的要求。首先介绍信息检索和信息抽取技术 ,然后分析两者的特点和不足 。
- 李芳盛焕烨姚天昉
- 关键词:信息检索信息抽取互联网数据库
- 多语种投资信息抽取系统的实现被引量:7
- 2004年
- 多语种投资信息抽取实验系统可以用中文、英文和德文的关键字或限定的自然语言问句查询语料库中的中文投资信息.它由语言处理模块、查询处理模块、信息抽取核心和动态交互获取模块组成.其主要特点:基于语种无关的模板和与语种有关的模式,实现不同语种信息抽取处理的一致性;事先定义的抽取模板结合动态获取的模板,来弥补信息抽取技术依赖于固定模板的缺陷,增加系统的健壮性.系统抽取的各个槽的平均精度为86.27%.动态获取模板的精度为85.27%,如果人工对约5个例句修改,动态交互获取模板的精度可达88.55%,提高了3%左右.
- 李芳盛焕烨张冬茉
- 关键词:信息抽取INTERNET应用
- 角色反演算法在问答系统中的应用被引量:2
- 2004年
- 该文介绍了如何将角色反演算法的思想用在多信息源多语种问答系统中来构建句法分析器。常用的句法分析算法由于受到语法规模大小的限制,一般都不能有效地应用到实际的自然语言处理当中。角色反演算法思想是将Chart算法的高空间效率和广义LR算法的高时间效率有效地结合起来,从而大大提高了综合的分析效率。基于多信息源多语种的问答系统,拥有大规模语法(上万条语法规则),通过引入角色反演算法思想,可以分别在问句分析模块和答句生成模块中有效地完成问句和文本答案候选文档的句法分析。
- 党琰张冬茉李芳
- 关键词:句法分析多信息源多语种问答系统
- 双语词汇自动获取系统
- 2001年
- 介绍了一个基于 Internet的双语词汇获取系统 ,提出了根据文本结构信息和内容信息进行对齐的方法 .该方法的实现不依赖于任何语言的特点 ,从对齐结果中自动抽取双语词汇 ,系统最终的结果词汇又被用作鉴定未知词汇的依据 .所抽取出的词汇反映了大量的新词、专有名词和在不同上下文里的各种译文 ,可以应用在机器翻译和多语种信息检索中 .
- 李芳盛焕烨
- 关键词:自然语言处理INTERNET内容信息对齐方法
- 信息抽取系统中多语种自然语言接口的研究
- 2002年
- 简要介绍了针对特定领域的多语种信息抽取系统的基本模型,并针对该系统的查询模块的需要,提出了一种结合基于实例推理和多智能主体技术的多语种自然语言接口的实现方法。总结了本方法的适用环境。
- 房一飞张冬茉
- 关键词:信息抽取系统多智能主体信息处理
- 一种相似网页文本分类方法的研究
- 2003年
- 通过分析网页的特点及因特网用户感兴趣的查询信息,提出了一种基于机器学习的、独立于语种的文本分类模型.这一模型的算法主要利用字间的相关信息、词频、页面的标记信息以及对用户的查询信息的浅层语义分析,提取网页特征,并计算可调的词频加权参数和增加特征词的可分性信息,然后通过本类和非本类训练,建立预定义类的特征向量空间,进一步对文本进行分类.这种分类方法在对于相似文本分类中具有明显的优势.
- 李雪蕾
- 关键词:文本分类可分性判据