国家自然科学基金(60963018)
- 作品数:2 被引量:2H指数:1
- 相关作者:贺琛琛张亚军香丽芸更多>>
- 相关机构:昌吉学院更多>>
- 发文基金:国家自然科学基金新疆维吾尔自治区高校科研计划国家语委科研项目更多>>
- 相关领域:自动化与计算机技术更多>>
- 维吾尔语句法树库标注体系
- 本文通过研究国内外相关的句法树库标注体系建设理论,再结合维吾尔语自身的特点,制定了维吾尔语句法树库标注体系规范,该标注体系包含两个标注集:功能语块标记集及短语标注标记集,在此基础上,采用了人工标注与自动标注相结合的方式完...
- 阿布都热依木·热合曼艾山·吾买尔吐尔根·依布拉音帕里旦·吐尔逊哈里旦木·阿布都克里木
- 关键词:维吾尔语
- 文献传递
- 基于混合策略的维吾尔语名词词干提取系统
- 本文对维吾尔语名词形态结构进行研究,并构造了名词有限状态自动机(FSM),然后针对自动机的缺陷使用最大熵模型给有限状态自动机加入了歧义词缀识别能力,最后根据维吾尔语的元音和谐特点,建立了基于规则和信道噪声模型的元音和谐处...
- 早克热·卡德尔艾山·吾买尔吐尔根·依布拉音帕里旦·吐尔逊买热哈巴·艾力
- 关键词:维吾尔语有限状态自动机噪声信道词干提取最大熵
- 文献传递
- 汉语-维吾尔语的一对一词对齐研究被引量:1
- 2012年
- 描述基于统计机器翻译的汉语到维吾尔语的一对一词对齐系统。系统进程分为两个模块:预处理和词字对齐。预处理过程,包括中文文本预处理和维吾尔语文本预处理过程:首先将维吾尔语通过专用工具转换为拉丁维文,然后将拉丁维吾尔语中的特殊文字转换成无歧义的字符。词对齐的实现过程:首先使用IBM模型1,其次利用IBM模型2,构建出一个词对齐系统。实验表明,该系统实现的词对齐比GIZA++中实现的正确率可以提高2.6个百分点。
- 张亚军贺琛琛
- 关键词:词对齐
- 限定领域的汉语-维吾尔语句子级对齐研究被引量:1
- 2014年
- 针对政府文献的汉语维吾尔语语料库特点,充分利用汉语和维吾尔语的句子特性,提出一种汉维句子级别的对齐方法。该方法重点分析政府领域的汉语和维吾尔语的句型,分别对汉语和维吾尔语的语料进行边界识别,避免了复杂句型对汉语-维吾尔语句子对齐的影响,使得该方法取得句子对齐达到97%与99%之间的正确率。对齐的汉语-维吾尔语句子对可以充实语料库的规模,为汉语-维吾尔语短语对齐以及汉维机器翻译提供翻译语料。
- 张亚军贺琛琛香丽芸
- 关键词:平行语料库句子对齐机器翻译句子边界识别