哈尔滨工业大学计算机科学与技术学院语言语音教育部-微软重点实验室
- 作品数:51 被引量:183H指数:8
- 相关作者:梁华参孙加东林建方马永亮胡鹏龙更多>>
- 相关机构:北京科技大学计算机与通信工程学院中央民族大学信息工程学院哈尔滨商业大学计算机与信息工程学院更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划黑龙江省自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学生物学更多>>
- 常用统计翻译模型在口语汉英翻译中的比较研究被引量:1
- 2007年
- 通过汉语到英语的翻译实验以及对结果译文的分析,对基于词的模型、基于短语的模型和基于句法的模型的翻译性能进行了比较。结果表明基于短语的模型性能优于其他两个模型,但是使用的参数较多;基于句法的模型虽然翻译性能不理想,但可以用较少的参数表达更丰富的信息,值得深入研究。
- 李俊薛永增赵铁军
- 关键词:自然语言处理统计机器翻译翻译模型句法分析器
- 结构化学习的噪声可学习性分析及其应用被引量:2
- 2013年
- 噪声可学习性理论指出,有监督学习方法的性能会受到训练样本标记噪声的严重影响.然而,已有相关理论研究仅针对二类分类问题.致力于探究结构化学习问题受噪声影响的规律性.首先,注意到在结构化学习问题中,标注数据的噪声会在训练过程中被放大,使得训练过程中标记样本的噪声率高于标记样本的错误率.传统的噪声可学习性理论并未考虑结构化学习中的这一现象,从而低估了问题的复杂性.从结构化学习问题的噪声放大现象出发,提出了新的结构化学习问题的噪声可学习性理论.在此基础上,提出了有效训练数据规模的概念,这一指标可用于在实践中描述噪声学习问题的数据质量,并进一步分析了实际应用中的结构化学习模型在高噪声环境下向低阶模型回退的情况.实验结果证明了该理论的正确性及其在跨语言映射和协同训练方法中的应用价值和指导意义.
- 于墨赵铁军胡鹏龙郑德权
- 关键词:词性标注自然语言处理半监督学习
- Web数据反馈的搭配抽取方法
- 2010年
- 为了提高搭配(Collocation)抽取的精度,提出一种新的互联网数据的搭配抽取方法.传统的搭配抽取统计方法都是基于语料库的,常受到语料库规模的影响和制约,而在互联网数据中蕴含着丰富的知识和信息,基于Web的词汇相关性度量方法,充分利用搭配在谷歌中的页面数模拟其对应语料库的词频数,并分别选取共现频率、互信息、卡方检验3种经典统计关联度量方法.实验结果表明召回率、精确率均好于对应的基于语料库的方法,这说明互联网中大量数据应用于自然语言处理各种任务的可行性.
- 林建方牛成李生郑德权
- 关键词:搭配互信息卡方检验语料库WEB
- 基于TBL的日文名实体识别后处理技术
- 本文提出了一种改进的基于TBL的日文名实体识别后处理方法。该方法首先针对日文名实体识别结果中的错误进行分析学习,得到候选规则集;然后按阈值条件对候选规则进行筛选,得到校正规则集;最后,应用校正规则集对日文名实体识别结果进...
- 王晶郑德权赵铁军王忠建
- 关键词:后处理语言特征
- 文献传递
- 结合本体论和统计方法的跨语言信息检索模型被引量:6
- 2008年
- 为了更有效地提高跨语言信息检索的性能,结合本体论和统计方法的特性,提出一种混合的跨语言信息检索模型.在该语言模型的结构上,提出一种本体描述框架,构造了一个形式化的语言本体知识表示,通过典型语料学习,融合了语法、语义、句法等多元信息,建立了源语言本体知识库.在跨语言信息检索的实际应用中,利用本体表示,获得初始的检索文档集,再基于源语言本体知识库,对全部候选文档重新排序,以提高TopN排列的精确度.利用NTCIR-3Workshop中的中英文跨语言信息检索数据集对该语言模型进行了评价,相关实验结果表明,该方法取得了较满意的实验效果.
- 郑德权李生赵铁军于浩
- 关键词:跨语言信息检索语言模型知识获取
- 短语统计机器翻译的句法调序模型被引量:10
- 2008年
- 为了处理统计机器翻译中的长距离调序,在基于短语的统计翻译模型的基础上提出了句法调序模型。该模型按照短语切分来分割句法树结构,从而能够避免短语和句法结构的不一致性。在该模型中依据短语对齐和短语内词对齐确定句法树部分结构的调序顺序,依据各个节点上的调序概率计算子结构的调序概率,作为对数线性模型的特征函数。该模型的实验结果比经典的短语统计翻译模型的BLEU评分有明显提高。结果表明句法调序模型对于基于短语的统计机器翻译是有效的,能够较好地将句法知识和短语翻译过程结合起来。
- 薛永增李生赵铁军杨沐昀
- 关键词:人工智能统计翻译模型短语
- 动态流形方法在多文档文摘模型上的应用
- 2018年
- 网络动态演化内容的识别和分析是人们快速获取有效信息的主要手段之一,已经成为人们迫切需要解决的关键问题。动态多文档文摘建立在时间信息基础上,从网络动态演化性出发,对同一话题不同时段的文档集合进行分析,在识别信息内容差异性的基础上,对信息的动态演化性进行建模。文中在经典流行排序思想的基础上,进一步提出了动态流行排序模型。该模型中不仅融入了信息的重要性特征,而且融入了信息与历史信息的关联特征以及信息的时间特征,使文摘信息动了起来,即文摘系统具有了动态性。该模型在国际标准评测TAXT ANYNASIS CONFERENCE 2008的Update task任务语料上进行了测试,获得了较好的实验结果。
- 刘美玲郑德权王慧强于洋
- 关键词:相似度
- 基于对等模式的汉-英译文调序
- 2013年
- 为了提高机器翻译质量,提出了一种基于对等模式的汉-英译文调序方法:从短语翻译对中抽取汉.英语序对应关系,利用语言学特征和错误驱动学习相结合的方式获取对等模式,使用对等模式来改变汉语句法树结构,使其生成的译文符合英语语序要求。使用该方法对500个汉.英双语句对中的汉语句子进行调序的实验结果表明,词链交叉率降低了10.56%。经过调序之后,汉语句子的译文质量有所提高。
- 张春祥赵铁军卢志茂高雪瑶
- 关键词:对等模式译文质量
- 汉语中方位参考点恢复研究被引量:1
- 2007年
- 方位参考点恢复是自然语言空间语义理解中十分重要问题.方位参考点恢复是在篇章中找方位词的参考点并补充上,得到完整的空间表达式.目前,自然语言处理技术大多面向句子级,导致省略参考点空间表达式独立出现,使空间语义理解困难.方位参考点恢复无疑可以解决类似问题.在此提出基于有限知识的方位参考点恢复方法.在句法分析基础上,以知网为常识库,结合有限知识识别空间表达式以及恢复方位参考点.实验结果表明该方法比较令人满意.
- 李晗静李生赵铁军
- 关键词:省略
- 多分类器融合的文本分类技术研究
- 互联网信息及电子资源的急剧膨胀,文本分类技术成为信息组织与管理的有效手段。本文提出了一种多分类器融合的文本分类技术,通过引入可信度函数,选择出主分类器较难判决的文本,通过辅助分类器,对单一主分类器不易判决的文本通过多分类...
- 陈庆轩郑德权赵铁军
- 关键词:多分类器文本分类电子资源