杨继臣 作品数:28 被引量:50 H指数:5 供职机构: 华南理工大学 更多>> 发文基金: 国家自然科学基金 广东省自然科学基金 中央高校基本科研业务费专项资金 更多>> 相关领域: 电子电信 自动化与计算机技术 文化科学 环境科学与工程 更多>>
新闻故事中的关键说话人发现方法 被引量:1 2012年 为了发现新闻故事中的关键说话人,用以提高多媒体检索效率,在说话人索引的基础上,提出了关键人发现方法:根据新闻故事中说话人的特点,基于说话人频率、说话人持续时间、平均每次说话人时长和说话人位置因子4个因素,综合定义了说话人关键度,用以判断说话人的重要性,把每个新闻故事中说话人关键度最大的人作为关键说话人。实验结果表明,该种算法可以找到故事中绝大部分的关键说话人,验证了该算法的有效性和可行性。 杨继臣 李艳雄关键词:新闻故事 多媒体检索 主要角色 基于两步判决的口语中非文字音频事件检测方法 被引量:1 2011年 为了有效利用非文字音频事件进行会话语音的语义分析,在分析口语中频繁出现的音频事件特征差异的基础上,提出了一种基于两步判决的口语中非文字音频事件的检测方法.该方法利用音频事件的信号特征构造音频事件信号段,采用门限判决来检测长掌声(第一步判决),而用统计模型来检测其它音频事件(第二步判决).实验结果表明:该方法检测填音、笑声、掌声3种非文字音频事件的平均准确率、召回率和F1度量值分别为87.3%、93.8%和90.4%;与现有文献数据相比,F1度量值平均提高了7.5%,且文中方法能更精确地确定非文字音频事件的边界. 贺前华 李艳雄 李韬 张虹 杨继臣关键词:门限判决 语音处理 基于深层说话人矢量的说话人检索 2015年 为了解决浅层特征不能有效刻画说话人特征,导致说话人检索率不高的问题,提出了一种基于深层说话人矢量的说话人检索方法.使用受限波尔兹曼机逐层构建一个多层的深层特征提取器用以提取说话人深层特征.为说话人构建基于深层特征的深层说话人矢量.通过计算要检索的说话人的深层说话人矢量和检索库中的说话人深层特征之间的最小距离,对目标说话人进行检索.实验结果表明:在深层特征下,使用深层说话人矢量可以检索到绝大部分的目标说话人;随着深度层数的增加,检索率先增后减,检索率最高对应的深度层数是7;随着深度层数的增加,检索时间非线性增加. 李威 杨继臣 贺前华 李艳雄关键词:检索率 基于核密度估计的说话人改变检测 2012年 为了解决在说话人改变检测常用算法中寻找说话人改变点(Speaker change point,SCP)过程中存在的盲目性和遍历性问题,使用均值漂移的核密度估计寻找SCP:首先使用均值漂移寻找峰值点,然后计算峰值点的最大似然值,最后通过寻找最大值的方法寻找SCP.试验结果表明,提出的算法的F1值与贝叶斯信息准则(Bayesian information criterion,BIC)和DISTBIC接近. 杨继臣 吴裕玲 苏杰华关键词:均值漂移 核密度估计 一种基于指纹因子的鲁棒音频检索方法 被引量:3 2016年 针对基于内容的音频检索中由于噪声造成的查找失败问题,本文提出了一种对噪声鲁棒的基于音频指纹因子的音频特征提取算法和一种半监督的音频字典训练算法,以提高噪声下音频检索的精度。本文方法从Mel谱中提取音频指纹,利用非负矩阵分解算法将指纹分解为对噪声鲁棒的频率因子和时间因子作为特征。同时通过提出的半监督音频字典训练算法进行音频字典训练,本文方法使用音效集计算基本音效的分布空间作为初始字典,在量化数据的同时动态更新字典以实现对数据的准确描述。实验结果表明,在低信噪比条件下本文提出的算法的平均查询精度明显高于其他算法。 林静 杨继臣 张雪源 李新超关键词:音频检索 非负矩阵分解 倒排索引 基于时空相关度融合的语音唇动一致性检测算法 被引量:5 2014年 本文在传统发音唇动分析模型的基础上,构建一个发音唇动时空模型.提出了唇动时域特征、空域特性与语音的相关度度量方法,以及融合时空度量的语音唇动一致性检测方法.利用唇宽、唇高与音频幅度变化之间的联系获得语音唇动的时域一致性评分;通过协惯量分析法获得语音与唇部空域特征的初始相关度,并提出了针对语音、唇动自然延时的相关度修订方法;最后将时空上的得分进行融合以判断语音唇动是否一致.初步实验结果表明,对于四种不一致音视频数据,与常用的协惯量方法相比,EER(Equal Error Rate)平均下降了约8.2%. 朱铮宇 贺前华 奉小慧 叶婉玲 李艳雄 杨继臣一种基于GLR的同源音频广告检索方法 本发明公开了一种基于GLR的同源音频广告检索方法,该方法采用广义似然比(Generalized Likelihood Ratio,简称:GLR)在音频文件中检测同源音频广告,主要包括以下步骤:(1)为提取的特征构建数据窗... 杨继臣 金海文献传递 一种两步判决的说话人分割算法 被引量:7 2010年 为了提高说话人分割(SS)准确率,该文综合考虑了静音信息和性别信息在SS中的作用,提出了一种两步判决的SS算法。在从音频流中分离出语音段的基础上,采用两步判决的方法进行SS。第1步采用基频信息为主、性别模型为辅的策略进行SS,将相邻说话人基频差异大的说话人改变检测出来;第2步采用基于性别的改进T2判决公式进行SS,实现相邻说话人基频差异小的同性别SS,为此,该文提出了一个基于块的潜在说话人改变点检测算法。实验结果表明,本文算法提高了分割准确率,F1度量值可达85.14%。对于短时长(<2s)语音段的SS,该算法和传统的贝叶斯信息判决算法相比,漏检率减少了16%。 杨继臣 贺前华 李艳雄 王伟凝关键词:语音信号处理 基于Matlab GUI的水质信息应用系统的设计 被引量:1 2006年 介绍了在M atlab GUI环境下,通过访问数据库,如何对水质信息进行管理,读取水质信息,作出水质信息图像;通过观察已知数据图像,不仅可以总结过去的规律,还可以对未来水质信息发展趋势进行预测. 杨继臣 张新政关键词:MATLAB GUI 数据库 图像 基于高频加权CQT谱的音符起始点检测 被引量:3 2015年 为提高音符起始点检测的准确率,提出高频加权CQT谱能量的音符起始点检测算法。对音乐信号进行CQT变换得到音阶分布矩阵后,结合不同信号CQT分布的特点滤除噪声。在采用CQT谱能量差分进行音符起始点检测时,针对CQT变换变窗长计算带来的低频时间分辨率较低、时间误差较大可能导致误判的问题,利用音乐中谐波丰富且时间分辨率较高的特点,进行高频加权计算,突出高频成分的作用,降低检测误差。选取标注的音乐数据文件进行测试,应用高频加权CQT谱进行起始点检测的结果中,F值为0.8541,效果良好。 林静 贺前华 李新超 杨继臣关键词:谱能量