国家自然科学基金(61370034)
- 作品数:3 被引量:15H指数:1
- 相关作者:刘加蔡猛田垚何亮史永哲更多>>
- 相关机构:清华大学中国科学院大学中国科学院电子学研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于计算听觉场景分析的说话人转换检测被引量:1
- 2018年
- 在短时语音说话人快速转变的说话人转换检测中,用于训练说话人模型的连续语音较短导致模型不稳健,致使说话人转换检测的性能较差。为此,提出一种新的说话人转换检测方法。借鉴人耳听觉处理机制将语音信号分解为多个子带,可以得到准确的浊、清音边界,实现对零散清、浊音子段的拼接。利用贝叶斯信息准则判决语音子段间的疑似转换点,并运用音高特征做区间验证。实验结果表明,该方法在平均语音子段时长为1.34 s的极短语音条件下,可使说话人转换检测的等错率降至23.2%,F1值达到70%。
- 杨登舟刘加夏善红
- 关键词:计算听觉场景分析音高贝叶斯信息准则
- 基于深度神经网络和Bottleneck特征的说话人识别系统被引量:13
- 2016年
- 近来,一种结合语音识别中深度神经网络(deep neural network,DNN)模型和说话人识别中身份认证矢量(identity vector,i-vector)模型的方法被证明对说话人识别十分有效。为了进一步提升系统性能,该文提出使用基于说话人标签的DNN模型提取Bottleneck特征代替该模型中的短时频谱特征来计算充分统计量,从而使统计量中包含更多有利于说话人识别的信息。在美国国家标准与技术研究院说话人识别库2008年度女性电话对电话英语测试任务上进行的实验证明了该方法的有效性。相比原来的短时频谱特征,基于Bottleneck特征的说话人识别系统在等错误率和最小检测代价上相对减小了7.65%和5.71%。
- 田垚蔡猛何亮刘加
- 关键词:说话人识别
- 基于JSM和MLP改进发音错误检测的方法被引量:1
- 2014年
- 针对发音错误检测的发音字典生成提出基于联合序列多阶模型(Joint-sequence multi-gram,JSM)和多层神经感知(Multi-layer perception,MLP)的方法.首先使用JSM模型对发音错误进行建模,将标准发音和错误发音组合为发音对,表示它们之间的对应关系,再使用N元文法来统计各发音对之间的关系,描述错误发音对上下文关系的依赖.最后使用MLP对发音对之间的关系进行重新建模,以学习到在相似的上下文条件下发生的相似的错误.实验证明使用MLP对高阶模型进行概率重估能有效的平滑概率空间,提高了发音错误检测的性能.
- 袁桦史永哲赵军红刘加
- 关键词:发音错误检测计算机辅助语言学习