您的位置: 专家智库 > >

国家自然科学基金(61263036)

作品数:14 被引量:88H指数:6
相关作者:杨鸿武裴东王全州孙瑜欣夏军更多>>
相关机构:西北师范大学甘肃政法学院中国电信股份有限公司更多>>
发文基金:国家自然科学基金甘肃省自然科学基金更多>>
相关领域:自动化与计算机技术电子电信理学社会学更多>>

文献类型

  • 13篇期刊文章
  • 3篇会议论文

领域

  • 10篇自动化与计算...
  • 5篇电子电信
  • 1篇语言文字
  • 1篇理学

主题

  • 4篇语音
  • 3篇神经网
  • 3篇神经网络
  • 3篇自适
  • 3篇自适应
  • 3篇阈值
  • 2篇信号
  • 2篇语音合成
  • 2篇语音信号
  • 2篇人脸
  • 2篇人脸识别
  • 2篇手势
  • 2篇手势识别
  • 2篇双语
  • 2篇自适应阈值
  • 2篇向量
  • 2篇加权
  • 2篇GABOR
  • 1篇动目标
  • 1篇动目标检测

机构

  • 15篇西北师范大学
  • 1篇甘肃政法学院
  • 1篇韶关学院
  • 1篇中国电信股份...

作者

  • 9篇杨鸿武
  • 6篇裴东
  • 3篇王全州
  • 2篇甘振业
  • 2篇赵涛涛
  • 2篇王玲玲
  • 2篇夏军
  • 2篇孙瑜欣
  • 1篇王海燕
  • 1篇魏倩茹
  • 1篇徐世鹏
  • 1篇陶中幸
  • 1篇陆冰
  • 1篇夏晓峰
  • 1篇赵爱芳
  • 1篇安占福
  • 1篇李艳媚

传媒

  • 4篇计算机工程与...
  • 2篇激光与红外
  • 2篇第十四届全国...
  • 1篇电视技术
  • 1篇激光与光电子...
  • 1篇西北师范大学...
  • 1篇液晶与显示
  • 1篇绵阳师范学院...
  • 1篇南京邮电大学...
  • 1篇重庆邮电大学...

年份

  • 2篇2020
  • 2篇2017
  • 5篇2016
  • 4篇2015
  • 3篇2014
14 条 记 录,以下是 1-10
排序方式:
基于局部Gabor自适应三值模式的人脸识别被引量:1
2016年
提出一种融合Gabor特征和局部三值模式(LTP)的人脸识别方法,并在算法中对局部三值模式(LTP)进行改进,提出能够自适应阈值的LATP算子。对归一化后的人脸图像进行多尺度、多方向的Gabor滤波提取其对应的幅值特征,在每个幅值图像上进行LATP运算,抽取局部邻域关系模式,这些模式的区域直方图再经过信息熵加权并串联得到最终的人脸描述,识别过程使用χ2距离对特征直方图进行相似度匹配。在ORL和Yale人脸数据库上实验,结果表明提出的算法对人脸表情和光照变化具有更好的适应性,对噪声干扰具有更强的鲁棒性。
夏军裴东孙瑜欣
关键词:人脸识别GABOR滤波器
手语到普通话/藏语语音转换系统的实现
针对健全人与聋哑人之间的交流障碍问题,实现了一个手语到汉藏双语语音转换的方法。通过使用基于RBM调节和深度反馈微调的深度学习方法,结合支持向量机对30种静态手势进行识别,根据识别出的手势信息,获得手势的文本,并通过文本分...
安晓春杨鸿武甘振业
关键词:静态手势识别隐MARKOV模型
文献传递
基于BiLSTM_CRF模型的藏文分词方法被引量:8
2020年
藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model,BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory,BiLSTM)中,将前向长短时记忆网络(long-short-term memory,LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field,CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。
王莉莉王宏渊白玛曲珍杨鸿武
关键词:民族语言
IPTV组网优化方案的设计与实现
2014年
随着三屏合一、三网融合、固定移动融合的推进,IPTV业务成为电信运营商的一种基于IP网络的交互式多媒体业务,承载网络的带宽、时延、抖动等指标对于IPTV业务发展非常重要。从IPTV业务运营角度出发,结合本地电信运营商运营情况,从服务质量QoS、组播、承载网合理化、平台资源策略调度等方面提出了一个组网优化方案,该方案成功提升了某市电信运营商IPTV的视频质量。
夏晓峰李艳媚杨鸿武
关键词:IPTVQOS组播承载网
复杂环境中多信息融合的手势识别被引量:8
2014年
针对复杂环境中的手势识别问题,提出了一种融合深度信息和红外信息的手势识别方法。首先利用Kinect摄像头的深度信息进行动态实时手势分割,然后融合红外图像复原手势区域。解决了实时手势分割和利用手势的空间分布特征进行手势识别时由于分割的手势区域有缺损或有人脸干扰时识别率低的问题。经实验验证,提出的方法不仅不受环境光线的影响,而且可以识别区分度较小的手势,对旋转、缩放、平移的手势识别也具有鲁棒性。对于区分度较大的手势,识别率高达100%。
赵爱芳裴东王全州杨鸿武安占福
关键词:手势分割手势识别深度信息复杂环境
融合Gabor特征的局部自适应三值微分模式的人脸识别被引量:19
2016年
提出了一种融合Gabor特征和局部三值微分模式(LTDP)的人脸识别算法,并在该算法中对LTDP方法进行改进,提出了自适应阈值算子。通过Gabor滤波器对人脸图像进行滤波,提取人脸多尺度、多方向的幅值特征;针对每个幅值特征图像,运用局部Gabor自适应三值微分模式(LGATDP2)方法提取局部方向关系模式;通过模式区域直方图统计,计算信息熵权重,加权串联后得到最终的人脸描述。识别过程中,采用χ2距离对特征直方图进行相似度匹配。分别在ORL和Yale数据库中进行仿真。结果表明,LGATDP2方法具有更好的普适性,在光照变化、表情变化和噪声干扰下具有更高的稳健性。
夏军裴东王全州孙瑜欣
关键词:图像处理人脸识别自适应阈值
基于多分类器的藏文文本分类方法被引量:14
2020年
文本分类是信息检索与数据挖掘领域的关键技术,可以有效解决信息杂乱问题并定位有效信息。提出了基于深度学习的卷积神经网络、循环神经网络、长短时记忆网络和双向长短时记忆网络的藏文文本分类方法。首先提出长短时记忆加条件随机场模型的方法对藏文分类文本进行分词,接着去除停用词、计算词频、提取特征词构建词向量空间模型获得词向量,然后将该词向量传输给分类模型训练藏文文本分类器,最后使用训练好的分类器对待分类藏文文本进行分类。实验数据表明,数据量较大时,深度神经网络模型分类效果均比传统机器学习模型分类效果好,且其中双向长短时记忆网络分类器得到的藏文文本分类效果最好;当数据量较少时,支持向量机分类效果较好。
王莉莉杨鸿武宋志蒙
关键词:文本表示机器学习模型
一种基于加权Mel倒谱的语音信号共振峰提取算法被引量:6
2014年
提出了一种利用加权Mel倒谱提取语音信号共振峰的算法.首先对短时语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;然后利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;最后根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值.实验结果表明,本算法比倒谱法提取的共振峰误差更小,在噪声环境下具有较好的鲁棒性.
杨鸿武赵涛涛
关键词:DCT变换鲁棒性
结合EMD和加权Mel倒谱的语音共振峰提取算法被引量:7
2015年
提出了一种利用经验模态分解(Empirical Mode Decomposition,EMD)和加权Mel倒谱(Weighted Mel-Cepstrum coefficients,WMCEP)提取语音信号共振峰的算法。对语音信号进行EMD分解,找出含有共振峰的固有模态函数(Intrinsic Mode Function,IMF),并将其重构得到一个新的重构语音信号。对重构语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值。实验结果表明,该算法比单独使用WMCEP提取的共振峰误差更小,而且在信噪比小于20 d B时仍然能够准确提取出共振峰。
赵涛涛杨鸿武
关键词:经验模态分解离散余弦变换
基于FPGA的语音信号波形VGA显示方法被引量:4
2016年
在基于FPGA的语谱分析研究与设计中,需要将语音时域波形和语谱分析结果同时显示在VGA屏幕上,而采用一般方法只能在有限的VGA显示区域内显示局部波形,无法将完整的一段语音信号波形显示出来。针对这一问题,提出了一种适合FPGA实现的语音信号波形VGA显示方法。该方法通过分析语音信号的波形特点,以及显示中存在的波形放大、波形缩小两个问题,提出线性插值和保留极值的解决方法,并详细探讨了这两种方法的FPGA硬件实现结构。实验结果表明,该方法能够有效地对语音信号进行正确显示。
陶中幸
关键词:现场可编程门阵列语音信号视频图形阵列
共2页<12>
聚类工具0