国家自然科学基金(60603095)
- 作品数:3 被引量:31H指数:3
- 相关作者:刘群吕雅娟郭稷熊德意马希荣更多>>
- 相关机构:中国科学院北京大学更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于双语混和网页的平行语料挖掘
- 双语平行语料是统计机器翻译模型训练必不可少的基础资源,但是大规模双语平行语料库的自动获取并不容易。本文提出了一种从双语混合网页上自动挖掘大规模双语平行语料库的解决方案,研究了候选双语混合网页的获取,网页噪声过滤,双语网页...
- 林政吕雅娟刘群马希荣
- 关键词:WEB挖掘平行语料库
- 文献传递
- 中文词法分析与句法分析融合策略研究被引量:13
- 2008年
- 利用外部资源是提升句法分析性能的一种有效方法。本文利用中文词法分析器这一外部资源,提出了一种通用转换方法将中文词法分析器与句法分析器有机地融合在一起。通过基于转换的错误驱动学习和条件随机场解决不同切词、词性标注标准间的转换问题。在句法分析方面,本文提出了多子模型句法分析器,将中心词驱动模型和结构上下文模型有效结合在一起。融合后的中文句法分析性能在宾州中文树库1.0版①测试集上F1值达到了82.5%的最好水平。
- 米海涛熊德意刘群
- 关键词:计算机应用中文信息处理中文词法分析条件随机场
- 题录信息的机器翻译方法
- 本文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,本文设计了拼音转换、假名转换和同音转换的翻译方法;对于地址、机构名和公司名的...
- 李贤华于淼吕雅娟
- 关键词:机器翻译
- 文献传递
- Web平行语料挖掘及其在机器翻译中的应用被引量:5
- 2010年
- 双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。
- 林政吕雅娟刘群马希荣
- 关键词:WEB挖掘平行语料库句子对齐统计机器翻译
- 一种有效的基于Web的双语翻译对获取方法被引量:13
- 2008年
- 命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。
- 郭稷吕雅娟刘群
- 关键词:计算机应用中文信息处理网络挖掘