国家自然科学基金(60703104)
- 作品数:11 被引量:15H指数:2
- 相关作者:蒋冬梅付中华王风娜谢磊白洁更多>>
- 相关机构:西北工业大学布鲁塞尔自由大学中国人民解放军海军兵种指挥学院更多>>
- 发文基金:国家自然科学基金陕西省自然科学基金西北工业大学基础研究基金更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于NAQ的语音情感识别研究被引量:1
- 2008年
- 研究了用迭代自适应逆滤波器估计声门激励的方法,以声门激励的时域参数归一化振幅商作为特征,对六种不同情感的连续语音,首先使用F-ratio准则判别其对情感的区分能力,然后运用混合高斯模型对语音情感进行建模和识别。采用eNTERFACE’05情感语音数据库中的语音,比较了以整句NAQ值作为特征和以元音段的NAQ值作为特征,以及主观感知的情感识别结果。实验表明元音段的NAQ值是一种具有判别力的语音情感特征。
- 白洁蒋冬梅谢磊付中华任翠红
- 关键词:混合高斯模型
- 基于流形特征的视频情感分析与识别
- 2010年
- 本文研究了基于Isomap的非线性降维方法,对由面部表情序列提取的面部动画参数特征进行降维,分析了降维后的流形特征空间与认知心理学情感空间之间的关系。实验结果表明,Isomap降维后的情感流形特征能够表现情感的强度变化,而且比PCA降维特征对情感强度的描述更加合理和平滑;情感识别实验也表明,使用Isomap降维流形特征的识别率要高于原始情感特征和PCA降维特征,而且对各种情感的识别结果更加均衡。
- 李青蒋冬梅Ravyse IlseSahli Hichem
- 关键词:ISOMAP流形情感空间
- 基于发音特征的音视频融合语音识别模型被引量:2
- 2011年
- 构建一种基于发音特征的音视频双流动态贝叶斯网络(DBN)语音识别模型(AF_AV_DBN),定义节点的条件概率关系,使发音特征状态的变化可以异步。在音视频语音数据库上的语音识别实验表明,通过调整发音特征之间的异步约束,AF_AV_DBN模型能得到比基于状态的同步和异步DBN模型以及音频单流模型更高的识别率,对噪声也具有较好的鲁棒性。
- 吴鹏蒋冬梅王风娜Hichem SAHLIWerner VERHELST
- 关键词:动态贝叶斯网络发音特征语音识别异步
- 基于谐波的乐纹提取和音乐检索被引量:1
- 2012年
- 提出了一种基于节拍内音乐谐波特性的乐纹特征提取方法,首先求得每帧音乐的谐波信息,再利用跟踪得到的节拍,计算节拍内所有帧的谐波信息的均值,构成此节拍的乐纹特征矩阵。为了提高音乐检索的效率,设计了一个二级音乐检索算法:根据节拍信息,将与查询音乐片段的每分钟节拍数相近的音乐作为候选音乐,再逐节拍计算所查询音乐的乐纹和候选音乐乐纹的相似度,选择相似度最高的音乐作为检索结果。实验结果表明,提出的乐纹特征和音乐检索算法有效地提高了检索准确率和检索效率。
- 周虹辰蒋冬梅Hichem SahliWerner Verhelst
- 关键词:节拍谐波音乐检索
- 一种新颖的语言/音乐分割与分类方法被引量:6
- 2009年
- 语音/音乐区分是音频高效编码、音频检索、自动语音识别等音频处理和分析的重要步骤。本文提出一种新颖的语音/音乐分割与分类方法,首先根据相邻帧间的均方能量差异检测音频的变化点,实现分割;然后对音频段提取低带能量方差比、倒谱能量调制、熵调制等八维特征,用人工神经网络做分类。实验结果显示,本文算法和特征具有很高的分割准确率和分类正确率。
- 孟永辉蒋冬梅付中华谢磊
- 关键词:音频分割人工神经网络
- 基于发音特征的音/视频双流语音识别模型被引量:1
- 2009年
- 构建了一种基于发音特征的音/视频双流动态贝叶斯网络(dynamic Bayesian network,DBN)语音识别模型,定义了各节点的条件概率关系,以及发音特征之间的异步约束关系,最后在音/视频连接数字语音数据库上进行了语音识别实验,并与音频单流、视频单流DBN模型比较了在不同信噪比情况下的识别效果。结果表明,在低信噪比情况下,基于发音特征的音/视频双流语音识别模型表现出最好的识别性能,而且随着噪声的增加,其识别率下降的趋势比较平缓,表明该模型对噪声具有很强的鲁棒性,更适用于低信噪比环境下的语音识别。
- 宋培岩蒋冬梅王风娜
- 关键词:动态贝叶斯网络发音特征语音识别
- 基于三流DBN模型的听视觉情感识别被引量:1
- 2012年
- 为更好地对听视觉情感信息之间的关联关系进行建模,提出一种三流混合动态贝叶斯网络情感识别模型(T_AsyDBN)。采用MFCC特征及基于基频和短时能量的局域韵律特征作为听觉输入流,在状态层同步。将面部几何特征和面部动作参数特征作为视觉输入流,与听觉输入流在状态层异步。实验结果表明,该模型优于有状态异步约束的听视觉双流DBN模型,6种情感的平均识别率从52.14%提高到63.71%。
- 吕兰兰蒋冬梅王风娜Hichem SahliWerner Verhelst
- 关键词:动态贝叶斯网络情感识别
- 基于发音特征DBN模型的嘴部动画合成被引量:2
- 2010年
- 具有真实感的面部动画合成是虚拟现实的重要研究内容,在传统的基于多流隐马尔可夫模型(MSHMM)的可视语音合成中,由于MSHMM不能为发音器官的运动关系建模,合成的嘴部图像模糊且缺乏细节变化。提出了结合发音特征的多流动态贝叶斯网络语音模型(AF_AVDBN),定义了各节点的条件概率分布,使得发音特征(如嘴唇、舌体和声门/软腭)之间可以异步,并在此基础上推导了基于极大似然估计原理的嘴部最优参数学习算法。嘴部动画合成实验结果表明,基于AF_AVDBN的合成方法能够得到非常逼真的嘴部图像,效果远远优于基于MSHMM的可视语音合成方法,能够更好地应用于人机交互等领域。
- 刘培桢蒋冬梅RAVYSE IlseSAHLI Hichem
- 关键词:发音特征动态贝叶斯网络
- 基于α阶GMMSE算法的语音增强研究
- 2009年
- 首先对α阶GMMSE算法中的阶数α以及先验信噪比ξ估计中的平滑参数进行了分析研究,讨论了α、β取不同值时对语音增强效果的影响,然后对具有不同信噪比的语音信号,采用不同α、β值下的GMMSE算法进行增强实验.实验结果表明,通过合理配置α阶GMMSE算法的参数,可以得到在噪声抑制和语音失真上综合性能最好的语音增强效果.
- 任翠红蒋冬梅付中华
- 关键词:语音增强MMSE先验信噪比
- 基于动态贝叶斯网络的听视觉融合情感识别被引量:1
- 2011年
- 在多媒体领域的研究中,对听视觉情感识别,如何融合听视觉情感信息是关键问题。传统的融合方法采用状态同步多流隐马尔可夫模型(Syn_AVHMM),但忽略了音视频情感信息之间的异步关系,从而影响识别结果。为了对听视觉情感信息之间的关联和异步关系进行更准确的描述,提出了一种听视觉状态可以异步,加入异步程度可控的多流动态贝叶斯网络情感识别模型(Asy_DBN),并在eNERFACE’05听视觉情感数据库上进行了情感识别实验。实验结果表明,通过调整听视觉状态流之间的异步约束,Asy_DBN模型可以得到最好的识别结果,六种情感的平均识别率比马尔可夫模型高出9.88%,为实际应用提供了依据。
- 陈丹淇蒋冬梅Ilse RavyseHichem Sahli
- 关键词:动态贝叶斯网络情感识别