国家自然科学基金(61262060)
- 作品数:10 被引量:30H指数:3
- 相关作者:艾山·吾买尔王路路吐尔根·依布拉音刘胜全艾山吾买尔更多>>
- 相关机构:新疆大学中国电子科技集团公司信息技术实验室更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划新疆维吾尔自治区重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术电子电信语言文字更多>>
- 基于Django的汉维地址翻译网络服务的设计与实现
- 2020年
- 命名实体是文本信息的主要承载者,识别与翻译命名实体是目前自然语言处理领域的研究热点。地址翻译在学术上属于命名实体翻译任务,地址表达文本中的关键信息,在机器翻译系统中,地址的正确翻译对译文整体翻译质量具有十分重要的影响。使用PyTorch构建基于神经网络的地址翻译模型,设计与实现基于Django的汉语-维吾尔语地址在线翻译网络服务,并使用UWSGI以及Nginx服务器来负载均衡。实验结果表明,所设计的系统具有良好的并发性以及高鲁棒性。
- 斯拉吉艾合麦提·如则麦麦提艾山·吾买尔张济民汪烈军汪烈军
- 关键词:DJANGO
- 基于Django的汉维人名在线翻译系统被引量:3
- 2020年
- 人名是文本中表达关键信息的部分,机器翻译系统在人名翻译上的表现对翻译质量具有重要影响。人名翻译作为命名实体翻译的重要部分,具有重要的研究意义。设计与实现基于Django的汉语-维吾尔语人名自动翻译网络服务接口,供机器翻译、关键词翻译等系统使用。采用TensorFlow框架搭建翻译模型并实现Django Web服务接口。实验结果显示,该翻译模型的准确率达到93.7%,服务接口翻译速度达到每秒139.72个字符,具有良好的并发性。
- 西热艾力·海热拉艾山·吾买尔王路路
- 关键词:汉语维吾尔语人名DJANGO循环神经网络
- 集成多种策略模型的维汉神经网络机器翻译系统被引量:3
- 2021年
- 神经网络机器翻译已经成为机器翻译研发的主流技术,但是大多数低资源语言仍然没法研发可使用的机器翻译系统。研究人员为了克服数据不足问题,提出了反向翻译、知识蒸馏、模型平均等多种辅助提高翻译模型性能的方法。虽然,这些方法单独使用能带来一定的提升,但是集成多种策略后的效果仍不明确。本文以全国机器翻译大会的维汉机器翻译评测任务目标,对多种策略分别进行实验,然后集成多种策略所得到的翻译模型实现了性能得到显著提升的维汉翻译系统。
- 宜年艾山·吾买尔刘胜全
- 人物简历汉维机器翻译系统的设计与实现
- 2018年
- 为解决将汉语人物简历翻译成维吾尔语版本所面临的高成本、低效率等问题,设计并实现了一种基于模板与词典相结合的人物简历汉维机器翻译系统。通过分析汉语简历的句子结构特点,泛化命名实体并自动创建汉语的简历模板,然后利用正则表达式建立汉维模板库并结合基于规则与词典的方法翻译命名实体,以获取维吾尔语的人物简历。实验结果表明,该系统在单语的情况下使用有限的模板和词典,BLUE值可达到0.38,与需要大规模双语语料训练的机器翻译系统相比具有较好的实际应用价值。
- 王路路斯拉吉艾合麦提.如则麦麦提艾山吾买尔吐尔根.依布拉音买合木提.买买提卡哈尔江.阿比的热西提
- 关键词:模板库正则表达式句子结构
- 结合单词-字符引导注意力网络的中文旅游文本命名实体识别被引量:6
- 2021年
- 传统基于词向量表示的命名实体识别方法通常忽略了字符语义信息、字符间的位置信息,以及字符和单词间的关联关系。提出一种基于单词-字符引导注意力网络(WCGAN)的中文旅游命名实体识别方法,利用单词引导注意力网络获取单词间的序列信息和关键单词信息,采用字符引导注意力网络捕获字符语义信息和字符间的位置信息,增强单词和字符间的关联性与互补性,从而实现中文旅游文本中命名实体的识别。实验结果表明,WCGAN方法在ResumeNER和TourismNER基准数据集上的F值分别为93.491%和92.860%,相比Bi-LSTM+CRF、Char-Dense等方法识别效果更好。
- 西尔艾力·色提艾山·吾买尔王路路王路路吐尔根·依布拉音买合木提·买买提
- 关键词:命名实体识别位置信息
- 中文命名实体识别模型对比分析被引量:10
- 2019年
- 为了比较客观了解现有主要中文命名实体识别系统与开源系统的性能,基于字的双向长短时记忆循环神经网络(BiLSTM)接入条件随机场(CRF)的系统,利用微软亚洲研究院的MSRA数据集实现中文命名实体识别模型,然后使用MSRA测试数据对自建模型、哈工大的语言技术平台(LTP)和斯坦福大学CoreNLP自然语言处理工具进行对比测试与分析。实验表明:BiLSTM对地名实体的识别效果最佳,与地名和人名相比机构名识别效果与开源工具保持同等水平。实验在语料规模以及实验设计方面有提升空间。后续将实验模型作为重点,将特定领域实体与序列标注问题相结合进行开展研究。
- 祖木然提古丽·库尔班艾山·吾买尔
- 关键词:命名实体识别
- 基于熵的机器翻译伪并行语料库选择方法
- 2021年
- 为了获得高质量的NMT模型,大规模并行语料库是必不可少的。使用反向翻译构造伪造语料库,这些伪造语料中存在大量的噪声,这些噪声会降低NMT模型的翻译质量。为了从反向翻译的伪造语料中选取高质量的语料,对此,提出了多种基于熵过滤伪造语料的方法,使用单个或多个语言模型按照不同的困惑度选择方法筛选伪造语料,实验表明,联合不同语言模型能够筛选高质量语料,并提高模型的质量。
- 刘婉月艾山・吾买尔敖乃翔郭锐
- 关键词:语言模型
- 维吾尔语-汉语量词短语的神经机器翻译被引量:3
- 2019年
- 针对语料不足引起的维吾尔语-汉语量词短语翻译性能不佳及歧义量词的翻译结果乱等问题,提出基于多编码器多解码器的维吾尔语-汉语量词短语神经机器翻译方法。将汉语语料进行自动处理和筛选,收集包含量词的维吾尔语-汉语量词短语语料,使用多编码器多解码器结构,搭建具有更强生成能力的多编码器多解码器维汉神经机器翻译模型。计算BLEU值得到了36.41,并通过对比实验结果,验证了所提方法的有效性。
- 阿依古丽·哈力克卡哈尔江·阿比的热西提艾山·吾买尔吐尔根·依布拉音
- 基于LDA的英汉维文本聚类系统的设计与实现被引量:2
- 2019年
- 以英汉维三种大规模文本聚类为目标,针对三种语言的特点实现基于LDA模型的静态文本聚类系统。因为存在博客、微博等网络媒体的文本不太规范及涉及的话题范围广泛等现象,对文本特征的提取及聚类算法的选择带来一定的难度。通过对样本文本的分析,计算出适当的聚类数k,再调用LDA算法将文本聚为k类并给出每类文本的关键词。测试结果表明,该系统能将英汉维三种语言的文本相似度高的聚为一类,可显著提高聚类效果。
- 田亮吐尔根.依布拉音艾山吾买尔卡哈尔江.阿比的热西提
- 关键词:文本聚类LDA模型多语言文本特征提取相似度聚类