中国科学院西部行动计划项目(KGCX2-YW-512)
- 作品数:5 被引量:41H指数:3
- 相关作者:吴健刘汇丹诺明花张立强丁治明更多>>
- 相关机构:中国科学院软件研究所中国科学院研究生院北京语言大学更多>>
- 发文基金:中国科学院西部行动计划项目国家科技重大专项更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于短语串实例的汉藏辅助翻译被引量:2
- 2013年
- 目前汉藏机器翻译的研究主要集中在基于规则的方法上,主要原因在于汉藏的平行语料等基础资源相对匮乏,不方便做大规模的基于统计的汉藏机器翻译实验。该文依据汉藏辅助翻译项目的实际需求,在平行语料资源较少的情况下,提出了一种基于短语串实例的机器翻译方法,为辅助翻译提供候选译文。该方法主要利用词语对齐信息来充分挖掘现有平行语料资源信息。实验结果表明,该文提出的基于短语串实例方法优于传统基于句子实例的翻译,能够检索出任意长度的短语串翻译实例。在实验测试集上,该方法与默认参数下的Moses相比,翻译的BULE值接近Moses,短语翻译实例串的召回率提高了约9.71%。在平均句长为20个词的测试语料上,翻译速度达到平均每句0.175s,满足辅助翻译实时性的要求。
- 熊维吴健刘汇丹张立强
- 关键词:机器翻译辅助翻译
- 基于关联度的汉藏多词单元等价对抽取方法
- 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,本文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束汉藏多词单元等价对。CMWEPM模型根据...
- 诺明花刘汇丹吴健丁治明
- 关键词:藏文信息处理
- 文献传递
- SegT:一个实用的藏文分词系统被引量:25
- 2012年
- 在分析现有藏文分词方法的基础上,该文重点研究了藏文分词中的格助词分块、临界词识别、词频统计、交集型歧义检测和消歧等问题并提出了相应的方法。应用这些方法,设计实现了一个藏文分词系统SegT。该系统采用格助词分块并识别临界词,然后采用最大匹配方法分词,并进行紧缩词识别。系统采用双向切分检测交集型歧义字段并使用预先统计的词频信息进行消歧。实验结果表明,该文设计的格助词分块和临界词识别方法可以将分词速度提高15%左右,但格助词分块对分词效果没有明显提高或降低。系统最终分词正确率为96.98%,基本达到了实用的水平。
- 刘汇丹诺明花赵维纳吴健贺也平
- 关键词:藏文分词格助词词频统计藏文信息处理中文信息处理
- 汉藏短语抽取被引量:5
- 2011年
- 该文将从汉藏法律法规和公文领域平行语料中提取双语短语对。考虑现阶段藏文资源匮乏,提出两步汉藏短语抽取方法。第一步是提取汉语有效语块,这部分工作不是该文工作重点。第二步是获取待翻译汉语短语的译文,该模块提出藏文词序列相交算法抽取藏文短语。该算法可以很好的抽取1-1和1-n连续和非连续藏文短语。
- 诺明花张立强刘汇丹吴健丁治明
- 关键词:藏文信息处理中文信息处理
- 基于关联度的汉藏多词单元等价对抽取方法被引量:1
- 2012年
- 针对为汉藏辅助翻译系统建立汉藏多词单元翻译词典这一任务,该文提出了CMWEPM模型。该模型首先依据关联度和结合度来确定汉语语料中多词单元的边界,然后根据词对齐信息分别抽取严格和约束多词单元等价对,从而形成汉藏多词单元等价对。CMWEPM模型根据不同长度和频次对多词单元进行分类,并为不同类型设定不同阈值,最终提高了汉藏多词单元等价对的召回率,从而能够间接地提高汉藏辅助翻译系统的翻译质量。
- 诺明花刘汇丹吴健丁治明
- 关键词:藏文信息处理
- 基于词典的汉藏句子对齐研究与实现被引量:10
- 2011年
- 双语语料库加工的关键技术之一是对齐,构建句子级别的对齐语料是构建语料库最基本的任务。该文参考其他语言句子对齐的成熟的方法,针对藏文语言的特殊性,提出基于词典的汉藏句子对齐。整理了对齐所用双语词典,并对其词语覆盖率进行了评价。在汉藏句子对齐过程中发现汉语与藏文的分词粒度不同的问题,采用在藏汉词典中进一步查词并在汉语句子中比对的方法,使正确句对的得分增加,从而提高对齐正确率。采用该方法准确率为81.11%。
- 于新吴健洪锦玲
- 关键词:词典平行语料库藏文信息处理
- 基于法律文本的藏语句子边界识别
- 由于传统藏语书写中标点符号的特殊性,在藏语句子中如何找到正确的句子边界,是正确识别句子的首要问题。本文通过对藏语法律文本语料的观察,利用规则提出了一个藏语句子边界的识别算法。同时对藏语法律文本的句式特点进行初步的分析和探...
- 赵维纳刘汇丹于新吴健张普
- 关键词:断句藏文信息处理中文信息处理
- 文献传递
- 藏文编码转换软件“藏码通”的设计与实现
- 由于藏文编码国家标准和国际标准发布较晚,并且基于国际标准小字符集编码实现藏文支持的技术相对复杂,藏文应用软件一般使用自定义的藏文编码实现对藏文的支持。由于藏文编码繁多,为了实现对有限的藏文电子资源的充分利用,开发一套藏文...
- 刘汇丹诺明花赵维纳吴健贺也平
- 关键词:计算机应用中文信息处理藏文信息处理
- 文献传递