吕雅娟
- 作品数:86 被引量:279H指数:9
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划国家杰出青年科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于多特征的搭配翻译模型研究被引量:1
- 2007年
- 提出一种新的搭配(Collocation)翻译方法,该方法在最大熵模型框架下,充分利用各种从单语和双语语料库中获取的信息.与过去的过分依赖双语语料库的方法不同,新的搭配翻译方法可以使用单语语料库训练翻译模型,在搭配内在信息的基础上,进一步引入了上下文信息.采用EM(Expectation Maximization)算法估计基于上下文的词汇翻译概率.本模型同时具备集成来自双语语料库信息的能力.实验表明,本文方法优于现有的基于单语语料库的搭配翻译方法,在双语语料库的支持下还可以得到更好的结果.
- 陈鄞吕雅娟李生
- 关键词:搭配最大熵EM算法
- 第七届全国机器翻译研讨会机器翻译评测总结被引量:8
- 2012年
- 该文介绍了第七届全国机器翻译研讨会(CWMT2011)机器翻译评测的具体情况。本次评测重点关注各种语言到汉语的翻译,除了汉英、英汉、日汉三个语言对以外,评测还新增了五种民族语言(藏语、蒙古语、维吾尔语、哈萨克语、柯尔克孜语)到汉语的翻译评测。共有19家国内外单位的165个系统参加此次评测。除了介绍评测项目的设置、评测数据的准备、评测流程、参评单位等,本文还重点介绍了CWMT2011的评测结果,并对评测结果进行了分析,用实例说明了与评测结果相关的几个因素:源语言与目标语言是否相似、评测领域是否集中、测试集与训练及开发集语料是否相似、训练语料的规模、参评系统的技术和成熟度等。
- 赵红梅吕雅娟贲国生黄云刘群
- 关键词:机器翻译机器翻译评测
- 关注语言本身难题,推进民族语言翻译
- 姜文斌吕雅娟
- 第四届全国机器翻译研讨会(CWMT2008)评测报告(公开版)
- 1概述为了全面了解国内外机器翻译技术的现状,促进机器翻译技术的研究,根据惯例,第四届全国机器翻译研讨会(CWMT2008)于2008年10月8日到10月22日继续了组织统一的机器翻译评测,以推进参评单位的实质性交流和机器...
- 赵红梅谢军吕雅娟刘群
- 文献传递
- 一种基于短语搭配和高频骨干词的层次短语约束抽取方法
- 层次短语翻译模型融合了短语模型和句法模型的优点,是当前统计机器翻译的主流模型之一.然而,传统的层次短语抽取方法在抽取过程中,只考虑了对齐一致性和规则长度的限制,没有考虑到句子中存在的短语搭配和高频骨干词,因此抽取出了大量...
- 苏劲松吕雅娟刘群
- 关键词:机器翻译语言模型对数似然比
- 文献传递
- 依存映射方法及系统
- 本发明提供一种依存映射方法,该方法首先在源语言与目标语言的双语语料库的基础上,经依存映射得到目标语言的依存句法信息并建立当前的目标语言依存句法分析模型及依存句法分析器;然后基于映射依存特征实例集合和无监督特征实例集合,对...
- 刘凯姜文斌吕雅娟刘群
- 文献传递
- 统计和模板相结合的科技文献机器翻译系统
- 本文介绍了一个统计和模板方法相结合的、面向科技文献翻译的实用汉英/英汉机器翻译系统。文中重点介绍了系统中使用的主要翻译技术、系统实现的主要功能、系统的翻译性能以及进一步提高系统的翻译性能所采取的措施。
- 马春香吕雅娟刘群
- 关键词:机器翻译翻译模板翻译词典
- 文献传递
- 题录信息的机器翻译方法
- 本文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,本文设计了拼音转换、假名转换和同音转换的翻译方法;对于地址、机构名和公司名的...
- 李贤华于淼吕雅娟
- 关键词:机器翻译
- 文献传递
- 基于小规模俄汉双语词典的俄语形态切分
- 俄语是一种形态丰富的语言,其形态切分相关语料较为缺乏或带有噪声,这些都为俄语的形态切分研究带来困难。我们将此问题建模为经典的序列标注模型,首先自动切分小规模俄汉双语词典提取出形素字典作为训练数据,然后针对这种语言特点训练...
- 黄云姜文斌王志洋祝捷吕雅娟刘群
- 关键词:俄语词语切分词法分析最大熵
- 文献传递
- 基于篇章上下文的统计机器翻译方法
- 上下文信息对于统计机器翻译(SMT)中的规则选择是很重要的,但是之前的SMT模型并没有充分利用上下文信息。在本文中,我们提出了一种利用篇章上下文信息的方法来提高规则选择的准确性,从而提高翻译的质量。首先我们利用向量空间模...
- 于惠谢军熊皓吕雅娟刘群林守勋
- 关键词:统计机器翻译上下文信息向量空间模型
- 文献传递