国家自然科学基金(61263036) 作品数:14 被引量:88 H指数:6 相关作者: 杨鸿武 裴东 王全州 孙瑜欣 夏军 更多>> 相关机构: 西北师范大学 甘肃政法学院 中国电信股份有限公司 更多>> 发文基金: 国家自然科学基金 甘肃省自然科学基金 更多>> 相关领域: 自动化与计算机技术 电子电信 理学 社会学 更多>>
基于局部Gabor自适应三值模式的人脸识别 被引量:1 2016年 提出一种融合Gabor特征和局部三值模式(LTP)的人脸识别方法,并在算法中对局部三值模式(LTP)进行改进,提出能够自适应阈值的LATP算子。对归一化后的人脸图像进行多尺度、多方向的Gabor滤波提取其对应的幅值特征,在每个幅值图像上进行LATP运算,抽取局部邻域关系模式,这些模式的区域直方图再经过信息熵加权并串联得到最终的人脸描述,识别过程使用χ2距离对特征直方图进行相似度匹配。在ORL和Yale人脸数据库上实验,结果表明提出的算法对人脸表情和光照变化具有更好的适应性,对噪声干扰具有更强的鲁棒性。 夏军 裴东 孙瑜欣关键词:人脸识别 GABOR滤波器 手语到普通话/藏语语音转换系统的实现 针对健全人与聋哑人之间的交流障碍问题,实现了一个手语到汉藏双语语音转换的方法。通过使用基于RBM调节和深度反馈微调的深度学习方法,结合支持向量机对30种静态手势进行识别,根据识别出的手势信息,获得手势的文本,并通过文本分... 安晓春 杨鸿武 甘振业关键词:静态手势识别 隐MARKOV模型 文献传递 基于BiLSTM_CRF模型的藏文分词方法 被引量:8 2020年 藏文分词是实现藏文语音合成和藏文语音识别的关键技术之一。提出一种基于双向长短时记忆网络加条件随机场(bidirectional long-short-term memory with conditional random field model,BiLSTM_CRF)模型的藏文分词方法。对手工分词的语料经过词向量训练后输入到双向长短时记忆网络(bidirectional long-short-term memory,BiLSTM)中,将前向长短时记忆网络(long-short-term memory,LSTM)和后向LSTM学习到的过去输入特征和未来输入特征相加,传入到线性层和softmax层进行非线性操作得到粗预测信息,再利用条件随机场(conditional random field,CRF)模型进行约束性修正,得到一个利用词向量和CRF模型优化的藏文分词模型。实验结果表明,基于BiLSTM_CRF模型的藏文分词方法可取得较好的分词效果,分词准确率可达94.33%,召回率为93.89%,F值为94.11%。 王莉莉 王宏渊 白玛曲珍 杨鸿武关键词:民族语言 IPTV组网优化方案的设计与实现 2014年 随着三屏合一、三网融合、固定移动融合的推进,IPTV业务成为电信运营商的一种基于IP网络的交互式多媒体业务,承载网络的带宽、时延、抖动等指标对于IPTV业务发展非常重要。从IPTV业务运营角度出发,结合本地电信运营商运营情况,从服务质量QoS、组播、承载网合理化、平台资源策略调度等方面提出了一个组网优化方案,该方案成功提升了某市电信运营商IPTV的视频质量。 夏晓峰 李艳媚 杨鸿武关键词:IPTV QOS 组播 承载网 复杂环境中多信息融合的手势识别 被引量:8 2014年 针对复杂环境中的手势识别问题,提出了一种融合深度信息和红外信息的手势识别方法。首先利用Kinect摄像头的深度信息进行动态实时手势分割,然后融合红外图像复原手势区域。解决了实时手势分割和利用手势的空间分布特征进行手势识别时由于分割的手势区域有缺损或有人脸干扰时识别率低的问题。经实验验证,提出的方法不仅不受环境光线的影响,而且可以识别区分度较小的手势,对旋转、缩放、平移的手势识别也具有鲁棒性。对于区分度较大的手势,识别率高达100%。 赵爱芳 裴东 王全州 杨鸿武 安占福关键词:手势分割 手势识别 深度信息 复杂环境 融合Gabor特征的局部自适应三值微分模式的人脸识别 被引量:19 2016年 提出了一种融合Gabor特征和局部三值微分模式(LTDP)的人脸识别算法,并在该算法中对LTDP方法进行改进,提出了自适应阈值算子。通过Gabor滤波器对人脸图像进行滤波,提取人脸多尺度、多方向的幅值特征;针对每个幅值特征图像,运用局部Gabor自适应三值微分模式(LGATDP2)方法提取局部方向关系模式;通过模式区域直方图统计,计算信息熵权重,加权串联后得到最终的人脸描述。识别过程中,采用χ2距离对特征直方图进行相似度匹配。分别在ORL和Yale数据库中进行仿真。结果表明,LGATDP2方法具有更好的普适性,在光照变化、表情变化和噪声干扰下具有更高的稳健性。 夏军 裴东 王全州 孙瑜欣关键词:图像处理 人脸识别 自适应阈值 基于多分类器的藏文文本分类方法 被引量:14 2020年 文本分类是信息检索与数据挖掘领域的关键技术,可以有效解决信息杂乱问题并定位有效信息。提出了基于深度学习的卷积神经网络、循环神经网络、长短时记忆网络和双向长短时记忆网络的藏文文本分类方法。首先提出长短时记忆加条件随机场模型的方法对藏文分类文本进行分词,接着去除停用词、计算词频、提取特征词构建词向量空间模型获得词向量,然后将该词向量传输给分类模型训练藏文文本分类器,最后使用训练好的分类器对待分类藏文文本进行分类。实验数据表明,数据量较大时,深度神经网络模型分类效果均比传统机器学习模型分类效果好,且其中双向长短时记忆网络分类器得到的藏文文本分类效果最好;当数据量较少时,支持向量机分类效果较好。 王莉莉 杨鸿武 宋志蒙关键词:文本表示 机器学习模型 一种基于加权Mel倒谱的语音信号共振峰提取算法 被引量:6 2014年 提出了一种利用加权Mel倒谱提取语音信号共振峰的算法.首先对短时语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;然后利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;最后根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值.实验结果表明,本算法比倒谱法提取的共振峰误差更小,在噪声环境下具有较好的鲁棒性. 杨鸿武 赵涛涛关键词:DCT变换 鲁棒性 结合EMD和加权Mel倒谱的语音共振峰提取算法 被引量:7 2015年 提出了一种利用经验模态分解(Empirical Mode Decomposition,EMD)和加权Mel倒谱(Weighted Mel-Cepstrum coefficients,WMCEP)提取语音信号共振峰的算法。对语音信号进行EMD分解,找出含有共振峰的固有模态函数(Intrinsic Mode Function,IMF),并将其重构得到一个新的重构语音信号。对重构语音信号进行加权Mel倒谱分析,获得包含频谱主要成分的加权Mel倒谱系数;利用离散余弦平滑算法,从加权Mel倒谱系数获得谱包络,并从谱包络的峰值位置获得候选共振峰;根据共振峰的连续性约束条件和频率范围,从候选共振峰筛选得到共振峰的估计值。实验结果表明,该算法比单独使用WMCEP提取的共振峰误差更小,而且在信噪比小于20 d B时仍然能够准确提取出共振峰。 赵涛涛 杨鸿武关键词:经验模态分解 离散余弦变换 基于FPGA的语音信号波形VGA显示方法 被引量:4 2016年 在基于FPGA的语谱分析研究与设计中,需要将语音时域波形和语谱分析结果同时显示在VGA屏幕上,而采用一般方法只能在有限的VGA显示区域内显示局部波形,无法将完整的一段语音信号波形显示出来。针对这一问题,提出了一种适合FPGA实现的语音信号波形VGA显示方法。该方法通过分析语音信号的波形特点,以及显示中存在的波形放大、波形缩小两个问题,提出线性插值和保留极值的解决方法,并详细探讨了这两种方法的FPGA硬件实现结构。实验结果表明,该方法能够有效地对语音信号进行正确显示。 陶中幸关键词:现场可编程门阵列 语音信号 视频图形阵列