王文君 作品数:25 被引量:3 H指数:1 供职机构: 昆明理工大学 更多>> 发文基金: 国家自然科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 医药卫生 更多>>
融合越南语语言知识的口语表达适应方法 本发明提出融合越南语语言知识的口语表达适应方法,属语音识别领域。本发明设计了越南语特征编码模块、越南语预训练语言模型知识迁移模块、越南语自适应解码器模块。包括步骤:数据的选择及预处理;通过越南语特征编码模块对处理后的数据... 余正涛 李金龙 董凌 王文君多模态特征的越南语语音识别文本标点恢复 被引量:1 2024年 越南语语音识别系统输出的文本序列缺少标点符号,恢复识别文本标点有助于消除歧义,更易于阅读和理解。越南语语音识别文本中常出现破坏语义的错误音节,基于文本模态的标点恢复模型在识别带噪文本时存在标点预测不准确的问题。利用越南语语音中的语气停顿及声调变化指导模型对带噪文本作出正确的标点预测,提出多模态特征的越南语语音识别文本标点恢复方法,利用梅尔倒谱系数(MFCC)提取语音特征,利用预训练语言模型提取文本上下文特征,基于标签注意力机制实现语音与文本多模态特征融合,增强模型对越南语带噪文本上下文信息的学习能力。实验结果表明,相较于基于Transformer和BERT提取文本单一模态特征的标点恢复模型,所提方法在越南语数据集上精确率、召回率和F1值均至少提高10个百分点,验证了融合语音与文本特征对提升越南语语音识别带噪文本标点预测精确率的有效性。 赖华 孙童 王文君 王文君 余正涛 高盛祥关键词:语音识别 越南语 多模态 融合音素的缅甸语语音识别文本纠错 2024年 缅甸语语音识别文本中包含大量的同音和空格错误,使用通用的文本语义信息纠正错误字符,对缅甸语空格和同音错误定位和纠正不准确。考虑到缅甸语是一种声调语言,并且音素中包含了声调信息,因此提出融合音素的缅甸语语音识别文本纠错方法。通过参数共享策略对转录文本及其音素进行联合建模,利用音素信息辅助检测并纠正缅甸语同音和空格错误。实验结果表明,本文所提方法相比基线方法ConvSeq2Seq,在缅甸语语音识别纠错任务中的F1值提升了85.97%,达到了79.15%。 陈璐 董凌 王文君 王文君 王剑 王剑关键词:缅甸语 音素 基于大语言模型语义能力的说话人日志任务优化方法 本发明涉及基于大语言模型语义能力的说话人日志任务优化方法,属于人工智能技术领域。本发明包括步骤:通过语音活动检测和自动语音识别模块生成带时间戳的语音转录文本,将生成的时间戳与转录文本整合,形成时间戳文本流;利用提示构造器... 余正涛 沈艺卓 马峻彬 高盛祥 王文君基于韵律域信息监督的解耦-增强越南语语音识别口音自适应方法 本发明涉及基于韵律域信息监督的解耦‑增强越南语语音识别口音自适应方法,属于人工智能技术领域。针对发音差异性下自适应语音识别问题,提出以韵律和域标签信息为指导的越南语语音解耦‑增强的自适应表征策略,实现了越南语南北口音差异... 余正涛 方妍文 赖华 董凌 王文君缅甸语语音识别纠错方法与装置 本发明涉及缅甸语语音识别纠错方法与装置,属于自然语言处理技术领域。本发明包括步骤:通过文本编码器、音素编码器分别获取数据的文本特征和音素特征;利用标签预测器对转录文本中的字符进行标签判定,实现标签预测;采用音素上下文提取... 余正涛 陈璐 王剑 王文君 董凌环状RNA在肿瘤癌变中的作用机制和临床意义 被引量:2 2017年 环状RNA(circRNA)是一种特殊的内源性非编码RNA,1976年在类病毒中被首次发现,随后在病毒和真核生物中也相继发现了circRNA。circRNA与线性RNA的不同之处在于其3'端与5'端相连,形成闭合的共价环状结构,该结构使circRNA较线性RNA更加保守和稳定〔1〕。最初cireRNA被认为是由选择性剪接错误产生, 王文君 史志周关键词:致癌机制 增殖 分子标志物 基于双门控图谱细化网络的噪声鲁棒性语音识别方法 本发明涉及基于双门控图谱细化网络的噪声鲁棒性语音识别方法,属于音频处理技术领域。本发明提出了一种集成了语音增强模块和双门控图谱细化模块的增强网络来提升语音识别的噪声鲁棒性。此方法针对传统语音增强模型在降噪后仍有语音失真和... 余正涛 李彦良 王文君 董凌基于多路信息聚合协同解码的单通道语音增强 2024年 为了改善基于卷积编解码架构的单通道语音增强网络对语音声学特征提取不充分、解码特征丢失严重的问题,提出一种基于多路信息聚合协同解码的单通道语音增强网络MIACD,通过双路编码器充分提取融入了语音自监督学习(SSL)表征的幅度谱和复数谱特征,由4层Conformer分别从时间和频率维度对提取特征建模,采用残差连接将双路编码器提取的语音幅度、复数特征引入三路信息聚合解码器,并利用所提通道-时频注意力(CTF-Attention)机制根据语音能量分布情况调节解码器中聚合信息,有效缓解解码时可用声学信息缺失严重的问题。在公开数据集Voice Bank DEMAND上的实验结果表明,与用于单通道语音增强的协作学习框架(GaGNet)相比,MIACD在客观评价指标宽带感知评估语音质量(WB-PESQ)上提升了5.1%,短时客观可懂度(STOI)达到96.7%,验证所提方法可充分利用语音信息重构信号,有效抑制噪声并提升语音可理解性。 莫尚斌 王文君 王文君 高盛祥 高盛祥关键词:声学特征 一种面向语音内容为中心的自监督对比表示学习方法、系统、电子设备、可读存储介质 本发明涉及一种面向语音内容为中心的自监督对比表示学习方法、系统、电子设备、可读存储介质,属于语音识别领域。本发明包括步骤:获取多任务语音识别相关的数据集;多任务语音识别相关的数据集预处理;利用音调扰动和说话人扰动的语音数... 余正涛 李金龙 董凌 王文君