清华大学信息科学技术学院网络与人机语音通信研究所
- 作品数:23 被引量:66H指数:6
- 相关作者:阮鹏白逸之谢莎莎幸璐璐赵苏琦更多>>
- 相关机构:北京大学医学部北京科技大学计算机与通信工程学院更多>>
- 发文基金:中国博士后科学基金国家自然科学基金国家高技术研究发展计划更多>>
- 相关领域:电子电信自动化与计算机技术语言文字生物学更多>>
- 基于肤色检测的快速五官定位算法被引量:7
- 2003年
- 根据视频应用的特点,结合人脸的肤色和特征部位几何分布特征,提出了一种应用于视频序列人脸部位的五官定位算法。实验表明,该算法定位速度快,误检率低。
- 赵苏琦赵明生
- 关键词:肤色检测人脸视频序列
- 基于ARM和DSP的视频会议终端设计与实现被引量:7
- 2003年
- 从控制部分设计、数据处理部分设计以及两部分联合工作这3个方面介绍了一个视频会议终端的设计和实现,并给出了一个嵌入式系统的基本架构和数据处理器在嵌入式系统中的应用,对嵌入式系统的开发和应用有一定的积极作用。
- 赵苏琦赵明生
- 关键词:ARMDSP控制模块数据处理模块嵌入式系统
- 基于SIP的多媒体视频会议控制系统被引量:9
- 2004年
- 分析了会议初始协议(SIP)的基本思想,并对其协议栈进行了研究,提出了协议栈实现的方法。讨论了SIP在多媒体视频会议中的应用,设计了基于SIP的视频会议的控制模块。给出了SIP功能实现的一个简单实例。
- 池刚毅赵明生扈旻
- 关键词:会话初始协议协议栈
- H.323网关实现中的难点分析及解决方案被引量:6
- 2003年
- VoIP普遍采用H.323体系标准,在网关的实现过程中,会涉及到多路呼叫的资源分配与维护、多线程的处理与同步、呼叫状态的迁移与超时处理,以及协议栈版本前后兼容等问题,这些问题的处理好坏对网关的系统效率以及互通性方面会有很大的影响。文章针对上述问题进行分析,提出了自己独特的解决方法,有效地优化了网关系统性能,并给出了网关的测试结果。
- 白逸之黄永峰李星
- 关键词:VOIP兼容性
- Cool-Audio IP电话系统改进设计及其实现
- 2002年
- 随着Internet的普及和网络带宽的增加,IP电话技术迅速发展起来。该文简要介绍了通讯研究所自行开发的一套PC-PCIP电话系统Cool-Audio,并重点介绍了为实现目录服务和广域漫游,对该系统的改进设计方案,包括基于轻量级目录访问协议(LDAP)的IP电话分布式呼叫中心的设计方案以及相应的客户端改进方案。该方案具有良好的可靠性和可扩展性。
- 扈旻环翾赵明生
- 关键词:IP电话呼叫中心轻量级目录访问协议网络电话用户认证
- 资源受限系统中的汉语声学模型研究
- 本文提出了可应用于资源受限系统的汉语声学模型.应用该模型,可以大大降低存储空间,在保证识别率基本不变的前提下,减少了识别时间.在550个命令词组成的词表的实验室环境的识别任务下,系统的识别率为97%,相对基线系统下降0....
- 张弛吴及肖熙
- 关键词:语音识别声学模型关键词识别
- 文献传递
- 麦克风阵列应用于鲁棒自适应噪声消除
- 2007年
- 提出一种应用于鲁棒自适应噪声消除的新结构,用优化波束形成方法取代GSC中的固定波束形成(Fixed Beamforming)以得到较宽的带宽;对GSC的输出进行后滤波处理消除残余噪声。
- 杨毅余达太宋辉刘加
- 关键词:麦克风阵列波束形成
- 一种基于CORBA的分布式全文检索系统设计被引量:3
- 2003年
- 海量信息的全文检索是人类获取信息的重要手段之一,而网络海量信息的检索使传统的全文检索技术面临新的挑战。如何改善检索系统的结构,提高检索系统的性能和效率,以加快检索速度,成为一个值得研究的课题。公用对象请求代理体系CORBA技术的出现为这一课题提供了一个有效的解决方法。该文在对WEB计算方式和CORBA体系进行详细讨论的基础上,结合实际课题的研究,给出了一种基于CORBA技术的分布式全文检索系统架构设计。
- 赵刚赵明生扈旻尚彤
- 关键词:CORBA分布式WEB计算
- 一种面向Internet视频会议应用的码率控制方案被引量:1
- 2003年
- 该文根据Internet视频会议的特点,参考了网络视频应用的经验,综合了一些常见的码率控制算法,设计并实现了一种含有用户反馈的码率控制策略,以及包括I帧频率控制、编码帧的选择、量化参数估计的一套码率控制方案。模拟试验表明,在不同信道速率条件下,实现了视频时域质量和空域质量的良好折中,使视频速率与信道速率得到良好匹配。
- 扈旻赵明生
- 关键词:H.263+码率控制
- 多模式汉语连续语音识别中视觉特征的提取和应用被引量:7
- 2004年
- 本文对在汉语多模式汉语语音识别系统中利用视觉特征进行了研究 ,给出了基于多流隐马尔科夫模型 (Multi streamHMM ,MSHMM)的听视觉融合方案 ,并对有关视觉特征的两项关键技术 :嘴唇定位和视觉特征提取进行了详细讨论。首先 ,我们研究了基于模板匹配的嘴唇跟踪方法 ;然后研究了基于线性变换的低级视觉特征 ,并与基于动态形状模型的特征作了比较 ;实验结果表明 ,引入视觉信息后无噪环境下语音识别声学层首选错误率相对下降 36 0 9% 。
- 刘鹏王作英
- 关键词:计算机应用中文信息处理多模式鲁棒性