公共文化服务平台

黄浩: 作品数：83 被引量：115H指数：6; 供职机构：新疆大学更多>>; 发文基金：国家自然科学基金博士科研启动基金新疆维吾尔自治区自然科学基金更多>>; 相关领域：自动化与计算机技术电子电信文化科学经济管理更多>>

合作作者

基于MEGA网络和分层预测的标点恢复方法: 2024年; 标点恢复又称标点预测,是指对一段没有标点的文本添加合适的标点,以提高文本的可读性,是一项经典的自然语言处理任务。随着预训练模型的发展和标点恢复研究的深入,标点恢复任务的性能在不断提升。然而,基于Transformer结构的预训练模型在提取长序列输入的局部信息方面存在局限性,不利于最终标点符号的预测。此外,以往的研究将标点标签视为要预测的符号,忽略了不同标点的场景属性和标点间的关系。为了解决这些问题,引入移动平均门控注意力(MEGA)网络作为辅助模块,以增强模型对局部信息的提取能力。同时,构建分层预测模块,充分利用不同标点符号的场景属性和标点间的关系进行最终的分类。使用多种基于Transformer结构的预训练模型在不同语言的数据集上进行实验,在英文标点数据集IWSLT上的实验结果表明,在多数预训练模型上应用MEGA模块和分层预测模块都能获得性能增益,使用DeBERTaV3 xlarge在IWSLT的REF测试集上的F1值达到85.5%,相比于基线提升了1.2个百分点。此外,在中文标点数据集的实验中也取得较高的精度。; 张文博黄浩吴迪唐敏杰; 关键词：自然语言处理

语音处理技术在语言及任务的扩展应用研究: 本文报告近年来新疆维吾尔自治区多语种技术重点实验室以维-哈-蒙等语言为研究对象开展的语音技术研究工作。科研项目有:电话语音说话人识别;连续语音识别及语音翻译技术等。经初步测试,基于GMM-UBM&SVM的维吾尔语自由式发...; 伊·达瓦黄浩那斯尔江吾守尔; 关键词：说话人识别连续语音识别; 文献传递

基于时域的基频感知语音分离方法被引量：2: 2022年; 传统的单通道语音分离方法主要采用混音作为输入,对其进行分离得到目标说话人的语音.最近的研究表明,将预估计的基频信息注入到原始混音信号中能够提高分离效果,但这种方法最初应用于时频域.近年来,基于时域的语音分离方法已经被验证优于早期的时频域分离方法.基于上述出发点,本文提出基于辅助基频的时域语音分离方法.该方法首先将时域信号输入预分离模块生成预分离语音,并从预分离语音中提取基频;然后将提取的基频与原始混音拼接,作为后分离模块的输入进行第二次分离.本文评估了不同的基频提取方法和训练策略.语音分离实验结果表明:在训练后分离模块时,先使用理想基频与混音融合训练一个理想分离网络,然后用RAPT方法对预分离源提取估计基频注入混音,再进行理想分离网络的微调,能够获得最佳的语音分离性能,比Conv-TasNet基线方法提高了0.5 dB.这说明显式地注入辅助基频信息不仅在时频域语音分离中表现出了有效性,同时也适用于时域语音分离.; 王凯李鸣鹤黄志华黄浩; 关键词：语音分离单通道基频时域

区分性模型组合中基于决策树的声学上下文建模方法被引量：1: 2012年; 上下文相关的区分性模型组合的局限在于引入大的模型权重参数集,在数据有限时容易导致区分性权重训练过拟合.针对该问题,本文提出利用决策树进行上下文建模,采用最小音子错误准则构建决策树以获得最优上下文相关权重参数集.决策树构造过程中通过评估目标函数的一阶近似增量来加速最优问题集的选择,并利用精细问题集来获得更好的声学区分能力.基于多模型组合的语音识别实验表明,该方法能够增强权重训练对过拟合的鲁棒性,在大幅减小参数数量的情况下降低误识率,并优于在特征空间进行组合的方法.; 黄浩李兵虎吾守尔.斯拉木; 关键词：上下文建模语音识别

一种基于神经网络的端到端声调识别方法: 本发明公开了一种基于神经网络的端到端声调识别方法，包括：构建端到端声调识别模型，确定神经网络的层数、隐含层节点数等所需的各项超参数；在训练集上训练语音识别声学模型，利用强制对齐获得每个音节的开始和结束时间；将选取的训练语...; 黄浩王凯胡英

基于深度神经网络的维吾尔语语音识别被引量：13: 2015年; 目前的语音识别主要采用隐马尔可夫模型去实现,考虑三音子后,模型参数巨增,在训练数据有限的状态下,模型参数得不到很好的训练,影响语音识别率。为提高语音识别率,提出基于深度神经网络的语音识别方法。以kaldi为测试平台,对一个含有4隐层的神经网络进行训练,利用该模型进行维吾尔语语音识别。实验结果表明,相比基本单音子隐马尔科夫模型和考虑三音子后的隐马尔科夫模型,深度神经网络模型使维吾尔语语音识别错误率分别降低了31.09%和8.68%,且现存一切模型优化算法在此模型中依然有效。; 其米克.巴特西黄浩王羡慧; 关键词：语音识别三音子

基于卷积非负矩阵部分联合分解的强噪声单声道语音分离被引量：3: 2020年; 非负矩阵部分联合分解(Nonnegative matrix partial co-factorization,NMPCF)将指定源频谱作为边信息参与混合信号频谱的联合分解,以帮助确定指定源的基向量进而提高信号分离性能.卷积非负矩阵分解(Convolutive nonnegative matrix factorization,CNMF)采用卷积基分解的方法进行矩阵分解,在单声道语音分离方面取得较好的效果.为了实现强噪声条件下的语音分离,本文结合以上两种算法的优势,提出一种基于卷积非负矩阵部分联合分解(Convolutive nonnegative partial matrix co-factorization,CNMPCF)的单声道语音分离算法.本算法首先通过基音检测算法得到混合信号的语音起始点,再据此确定混合信号中的纯噪声段,最后将混合信号频谱和噪声频谱进行卷积非负矩阵部分联合分解,得到语音基矩阵,进而得到分离的语音频谱和时域信号.实验中,混合语音信噪比(Signal noise ratio,SNR)选择以¡3 dB为间隔从0 dB至¡12 dB共5种SNR.实验结果表明,在不同噪声类型和噪声强度条件下,本文提出的CNMPCF方法相比于以上两种方法均有不同程度的提高.; 董兴磊胡英黄浩吾守尔·斯拉木; 关键词：语音分离强噪声单声道

自动发音错误检测中基于F_1值最大化的声学模型训练方法被引量：3: 2013年; 为了提高计算机辅助语言学习中自动发音错误检测系统的性能,提出一种声学模型的区分性训练方法。该方法将经过正确度标注的非母语语音数据库上的发音错误检测的F_1值的最大化作为模型参数的训练准则。采用Sigmoid函数对F_1值函数进行平滑构造目标函数,并利用构造弱意义辅助函数的方法以及扩展Baum-Welch形式的参数更新公式进行优化。提出在模型参数更新与音素门限同时优化的策略保证目标函数增长的单调性。发音错误检测实验表明该方法能够有效地增大训练和测试数据检错的F_1值。同时训练数据和测试数据上的精确度、召回率以及检测正确度都有明显改进。; 黄浩王建明哈力旦.阿布都热依木吾守尔.斯拉木; 关键词：声学模型最大化发音 SIGMOID函数模型参数目标函数

Discriminative tone model training and optimal integration for Mandarin speech recognition: 2007年; Two discriminative methods for solving tone problems in Mandarin speech recognition are presented. First, discriminative training on the HMM （hidden Markov model） based tone models is proposed. Then an integration technique of tone models into a large vocabulary continuous speech recognition system is presented. Discriminative model weight training based on minimum phone error criteria is adopted aiming at optimal integration of the tone models. The extended Baum Welch algorithm is applied to find the model-dependent weights to scale the acoustic scores and tone scores. Experimental results show that tone recognition rates and continuous speech recognition accuracy can be improved by the discriminatively trained tone model. Performance of a large vocabulary continuous Mandarin speech recognition system can be further enhanced by the discriminatively trained weight combinations due to a better interpolation of the given models.; 黄浩朱杰

一种基于音素嵌入的语音识别方法: 本发明公开了一种基于音素嵌入的语音识别方法，方法包括：将m+n层的编码器Encoder的前m层当作声学模型，用于音素信息学习，可使用目标语言数据和其他语种数据训练声学模型；后n层和解码器Decoder当作语言模型，可以结...; 黄浩杨宇航

黄浩

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户反馈

黄浩

合作作者

文献类型

领域

主题

机构

作者

传媒

年份

用户登录

用户反馈