内蒙古自治区自然科学基金(2011ZD11) 作品数:9 被引量:21 H指数:3 相关作者: 高光来 闫学亮 赵建东 闫蓉 鲍玉来 更多>> 相关机构: 内蒙古大学 更多>> 发文基金: 内蒙古自治区自然科学基金 国家自然科学基金 国家电子信息产业发展基金 更多>> 相关领域: 自动化与计算机技术 更多>>
基于分割识别的蒙古语语音关键词检测方法的研究 被引量:2 2013年 蒙古文属于黏着语,词根和后缀能够组合成近百万的蒙古文单词。现有的蒙古语大词汇量连续语音识别(LVCSR)系统的发音词典无法包含所有蒙古文单词。同时发音词典较大时,训练语料的稀疏将导致LVCSR系统的性能明显下降。为了解决LVCSR系统中大多数蒙古文单词的识别问题和蒙古语语音关键词检测系统中大量集外词的检测问题,结合蒙古文的构词特点,提出了基于分割识别的蒙古语LVCSR方法,并建立了对应的声学模型和语言模型。最后,将此方法应用到了蒙古语语音关键词检测系统中并在蒙古语语音语料上进行了测试。实验结果表明,基于分割识别的蒙古语LVCSR方法能解决大部分蒙古文单词的识别问题,并将蒙古语语音关键词检测系统的大量集外词转化成了集内词,大幅度提高了检测系统的查准率和召回率。 飞龙 高光来 闫学亮 王炜华关键词:蒙古语 词干 关键词检测 混淆网络 蒙古文字母到音素转换方法的研究 被引量:4 2013年 针对蒙古文字母到音素的转换(grapheme to phoneme conversion,G2P)问题,提出了基于规则的蒙古文G2P转换方法和基于联合序列模型的蒙古文G2P转换方法。实验结果表明,利用联合序列模型的蒙古文G2P转换方法要明显好于基于规则的蒙古文G2P转换方法。并且建立的基于联合序列模型的蒙古文G2P转换系统的词误识率为16.32%,音素误识率仅为3.37%,能达到实用要求。 飞龙 高光来 闫学亮关键词:蒙古文 基于历史模型的蒙古文自动词性标注研究 被引量:1 2013年 蒙古文自动词性标注方面的研究工作较少,制约了对蒙古文的机器翻译、语法分析及语义分析等领域的深入研究。针对于此,提出了加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法。实验表明,加入lookahead学习机制的基于历史模型的蒙古文自动词性标注方法对蒙古文的未登录词、集内词、总体词自动词性标注的准确率分别达到了71.276 6%、99.148 2%、95.301 0%,说明此方法可以较好地进行蒙古文的自动词性标注。 赵建东 高光来 飞龙关键词:LOOKAHEAD 蒙古文 基于HMM的蒙古语语音合成技术研究 被引量:6 2014年 基于隐马尔科夫模型的语音合成方法是当今语音合成的主流方法,它已被广泛应用于英语、汉语、日语等语音合成系统中。然而基于隐马尔科夫模型的蒙古语的语音合成技术研究还处于空白状态。首次将基于隐马尔科夫模型的语音合成方法用于蒙古语语音合成,并进行了语音合成实验。从最终合成系统的效果来看,合成的语音整体稳定流畅,可懂度高,而且节奏感比较强,主观平均得分为3.80。这为进一步研究基于隐马尔科夫模型的蒙古语语音合成技术奠定了基础。 赵建东 高光来 飞龙关键词:隐马尔科夫模型 蒙古语 语音合成 蒙古语电话语音语料库的建立 被引量:4 2013年 蒙古语电话语音的研究刚刚起步,建立规模较大的、通用的电话语音语料库成为了重要的基础工作.本次建立的蒙古语电话语音语料库是以自然口语的对话形式进行录制,并且体现了不同电话信道、不同方言、不同年龄段说话人的特点.本文详细讨论了语料库的录制整理、语音切分和语音标注等几个问题.本次建立的语料库为蒙古语电话语音的语音识别、语音检索、语音监控和说话人识别等技术的研究提供了真实的实验数据. 飞龙 高光来 鲍玉来关键词:蒙古语 电话语音 语音语料库 蒙古语语音合成语料库标注规则的设计 2013年 在蒙古语语音合成系统中,语料库的好坏会直接影响语音合成的效果.因此,语料库标注规则的设计对语音合成工作具有重要意义.提出了一种新的蒙古语语音合成语料库的标注规则,并用按此规则标注的蒙古语语料库进行了基于隐马尔科夫模型的蒙古语语音合成实验,合成效果达到了预期目标,说明我们提出的标注规则是合理可靠的. 赵建东 高光来 飞龙关键词:蒙古语 语料 语音合成 蒙古文依存句法分析 被引量:3 2014年 近年来,依存句法分析逐渐成为自然语言处理领域中的研究热点。然而,蒙古文的依存句法分析尚未得到足够的重视。基于最大生成树模型在蒙古文依存关系树库TMDT上进行了蒙古文依存句法分析的研究。在简要介绍蒙古文的特点和蒙古文依存关系树库TMDT之后,详细讨论了最大生成树模型。为找到该模型在蒙古文依存句法分析中合适的特征,重点通过实验对8种特征及其组合在句法分析中的性能进行了比较。结果显示,Basic Unigram Features、Basic Bi-gram Features以及C-C sibling Features这3种特征的组合性能最佳。本研究为蒙古文依存句法分析奠定了基础。 苏向东 高光来 闫学亮关键词:蒙古文 依存句法分析 最大生成树 自然语言处理 上下文边界可变的词义消歧 被引量:2 2015年 传统基于知识的词义消歧方法对所有词性的多义词均采用统一窗口大小作为消歧上下文,没有考虑固定窗口中影响消歧的噪音问题,消歧效果不佳,为此提出一种上下文边界可变的中文词义消歧模型。通过分词性的调整消歧上下文边界,尽可能保证选取的上下文中各词语和多义词存在语义联系,达到消减噪音目的。通过构建多义词义项搭配库,进一步细化词语间语义相关度计算。实验结果表明,使用该方法比SemEval-2007最好成绩高出8.6个百分点。 闫蓉 高光来关键词:语境 语义相关 搭配 词义消歧 知网 基于最大边缘相关的伪相关反馈方法 2015年 反馈文档的质量是制约伪相关反馈方法性能的主要因素。为了提高反馈文档的鲁棒性,提出一种基于最大边缘相关的伪相关反馈方法 RMMR(Reorder Maximal Marginal Relevance)。该方法通过对查询初检结果进行重调序,使得排序后的前k个文档中,文档间的相似度最小且与查询相关的数目最大。最后,利用查询纯度将影响性能的候选扩展词剔除后进行二次查询。实验结果表明,该方法可以有效地提高反馈文档的鲁棒性。 闫蓉 高光来关键词:查询扩展