您的位置: 专家智库 > >

国家自然科学基金(60603095)

作品数:3 被引量:31H指数:3
相关作者:刘群吕雅娟郭稷熊德意马希荣更多>>
相关机构:中国科学院北京大学更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 3篇期刊文章
  • 2篇会议论文

领域

  • 4篇自动化与计算...
  • 1篇语言文字

主题

  • 3篇翻译
  • 2篇信息处理
  • 2篇语料
  • 2篇语料库
  • 2篇双语
  • 2篇平行语料
  • 2篇平行语料库
  • 2篇中文
  • 2篇中文信息
  • 2篇中文信息处理
  • 2篇机器翻译
  • 2篇计算机
  • 2篇计算机应用
  • 2篇WEB挖掘
  • 1篇对齐
  • 1篇双语翻译
  • 1篇随机场
  • 1篇条件随机场
  • 1篇同音
  • 1篇统计机器

机构

  • 5篇中国科学院
  • 1篇北京大学

作者

  • 4篇吕雅娟
  • 4篇刘群
  • 2篇林政
  • 1篇熊德意
  • 1篇李贤华
  • 1篇于淼
  • 1篇郭稷
  • 1篇马希荣

传媒

  • 3篇中文信息学报

年份

  • 2篇2010
  • 1篇2009
  • 2篇2008
3 条 记 录,以下是 1-5
排序方式:
基于双语混和网页的平行语料挖掘
双语平行语料是统计机器翻译模型训练必不可少的基础资源,但是大规模双语平行语料库的自动获取并不容易。本文提出了一种从双语混合网页上自动挖掘大规模双语平行语料库的解决方案,研究了候选双语混合网页的获取,网页噪声过滤,双语网页...
林政吕雅娟刘群马希荣
关键词:WEB挖掘平行语料库
文献传递
中文词法分析与句法分析融合策略研究被引量:13
2008年
利用外部资源是提升句法分析性能的一种有效方法。本文利用中文词法分析器这一外部资源,提出了一种通用转换方法将中文词法分析器与句法分析器有机地融合在一起。通过基于转换的错误驱动学习和条件随机场解决不同切词、词性标注标准间的转换问题。在句法分析方面,本文提出了多子模型句法分析器,将中心词驱动模型和结构上下文模型有效结合在一起。融合后的中文句法分析性能在宾州中文树库1.0版①测试集上F1值达到了82.5%的最好水平。
米海涛熊德意刘群
关键词:计算机应用中文信息处理中文词法分析条件随机场
题录信息的机器翻译方法
本文针对题录信息中的人名、地址、机构名和公司名的不同特征,分别设计了不同的翻译方法,并依靠词典和翻译规则,实现了大部分内容的翻译。对于人名翻译,本文设计了拼音转换、假名转换和同音转换的翻译方法;对于地址、机构名和公司名的...
李贤华于淼吕雅娟
关键词:机器翻译
文献传递
Web平行语料挖掘及其在机器翻译中的应用被引量:5
2010年
双语平行语料库在自然语言处理领域有很多重要应用,但是大规模双语平行语料库的自动获取并不容易。该文提出了一种有效的从Web上获取高质量双语平行语料库的方案,研究了候选双语混合网页获取和平行句对抽取等关键技术。运用该文方法共获取了258万双语平行句对,平均正确率为93.75%,其中前150万句对的平均正确率达到96%。该文还提出句对质量排序和领域信息检索两种方法将Web数据应用于统计机器翻译的模型训练,在IWSLT评测数据上BLEU值可以提高2到5个百分点。
林政吕雅娟刘群马希荣
关键词:WEB挖掘平行语料库句子对齐统计机器翻译
一种有效的基于Web的双语翻译对获取方法被引量:13
2008年
命名实体和新词、术语的翻译对机器翻译、跨语言检索、自动问答等系统的性能有着重要的影响,但是这些翻译很难从现有的翻译词典中获得。该文提出了一种从中文网页中自动获取高质量双语翻译对的方法。该方法利用网页中双语翻译对的特点,使用统计判别模型,融合多种识别特征自动挖掘网站中存在的双语翻译对。实验结果表明,采用该模型构建的双语翻译词表,TOP1的正确率达到82.1%,TOP3的正确率达到94.5%。文中还提出了一种利用搜索引擎验证候选翻译的方法,经过验证,TOP1的正确率可以提高到84.3%。
郭稷吕雅娟刘群
关键词:计算机应用中文信息处理网络挖掘
共1页<1>
聚类工具0