潘接林
- 作品数:74 被引量:168H指数:6
- 供职机构:中国科学院声学研究所更多>>
- 发文基金:国家自然科学基金国家高技术研究发展计划中国科学院战略性先导科技专项更多>>
- 相关领域:电子电信自动化与计算机技术语言文字理学更多>>
- 一种演唱的评分系统和方法
- 本发明公开了一种演唱的评分系统和方法,通过对演唱语音信号进行音符切分、量化,搜索歌曲中的对应演唱歌曲片段,计算多种距离,并综合得到演唱评分。通过应用本发明,使得只要演唱数据在旋律上与原声有较好的一致性,就可以得到较准确的...
- 颜永红李明曹川刘建潘接林
- 文献传递
- 口语障碍者的语音特征分析与变换
- 声音变换技术在语音识别、语音合成、保密通信等领域都有广泛的潜在应用前景。本文将研究如何将不同程度口语障碍者的语音,通过分析和变换转换成另一种更易于听懂的语音。在分析中,我们用线谱频率(LSF)作为参数,用混合高斯模型(G...
- 张建平潘接林韩疆颜永红
- 文献传递
- 基于强制对齐的汉语重复性口吃检测方法研究被引量:1
- 2013年
- 研究了基于强制对齐的针对汉语的口吃自动检测算法。针对汉语重复性口吃的特点,设计了改进的方案。首先为检测汉语口吃的多音节重复现象,设计了多跨度回环的强制对齐解码网络。然后为降低由于解码网络的复杂化带来的误差,用回溯搜索方法在网络中加入了支路惩罚因子以调节解码趋向。最后为进一步提高检测结果的可靠性,计算置信度,对重复性口吃现象进行了二次判决。试验结果表明,与现有算法相比,采用的改进算法能使重复性口吃检测的错误率相对降低18%左右,有效地改善了重复性口吃检测系统的性能。
- 张俊博严芊高兴龙潘复平冯勇强邢力力林春兰潘接林
- 关键词:自动检测算法汉语对齐惩罚因子搜索方法
- 基于语音出现时频相关性的语音掩模估计
- 在二维的时频域网格结构中,相邻点上语音信号的存在与否是相关的,传统的马尔科夫链不能对二维的时频相关性进行自适应的建模.本文基于语音信号在时频域中的相关性,提出了一种利用二维的相关模型估计语音掩模的方法.该方法将时频域中带...
- 战鸽黄兆琼应冬文潘接林颜永红
- 关键词:语音信号
- 文献传递
- 中英双语混合语音识别研究
- 2008年
- 介绍了针对歌曲检索中出现的中英混合现象所开发的中英双语识别系统。在双语混合语音识别中,主要面临的2个问题:①在保证双语识别率的前提下控制系统的复杂度;②有效处理插入语中原用语引起的非母语口音现象。为了解决双语混合现象以及减少统计建模所需的数据量,通过音素混合聚类方法建立起一个统一的双语识别系统。在聚类算法中,提出了一种新型基于混淆矩阵的两遍音素聚类算法(TCM),并将该方法与基于声学似然度准则的聚类方法进行了比较。实验结果表明:利用TCM进行音素聚类的识别性能优于基于声学似然度音素聚类的性能,最终得到的中英双语识别系统在纯英文测试集上的短语错误率(PER)相对基线单英文识别系统下降7.19%;在双语混合测试集上PER相对基线混合模型下降13.78%;同时在纯中文测试集上保持了基线单中文识别系统的性能。
- 张晴晴潘接林颜永红
- 关键词:聚类算法自适应
- 连接时序分类准则声学建模方法优化被引量:2
- 2018年
- 对基于连接时序分类准则(connectionist temporal classification,CTC)的端到端声学建模方法进行研究和优化。研究分析了不同声学特征、建模单元以及神经网络结构对CTC声学模型性能的影响,针对CTC模型中blank符号共享导致的建模缺陷提出了建模单元相关的非共享blank方法进行改进,并引入融合建模单元关联信息的模型初始化方法进一步提高CTC模型的性能。在300小时标准英文数据集Switchboard的实验结果显示,结合非共享blank、时延神经网络以及融合建模单元关联信息的初始化方法,CTC声学模型相对于基线系统在词错误率上取得绝对1.1%的下降,同时在训练速度上取得3.3倍的提高,实验结果证明本文针对端到端声学建模提出的优化方法是有效的。
- 王智超张鹏远潘接林颜永红
- 关键词:建模方法声学特征初始化方法
- 语音识别系统
- 本发明公开一种语音识别系统,包括:模数变换单元,将输入语音的模拟信号变换为数字信号;特征提取单元,对该数字信号进行分帧处理,提取每一帧语音的特征参数,得到其特征矢量序列;特征码本,由一定数量的码字组成;量化编码单元,根据...
- 潘接林韩疆刘建颜永红庹凌云张建平
- 文献传递
- 基于异构计算的语音识别解码加速方法被引量:1
- 2019年
- 提出一种基于异构计算方法加速基于神经网络声学模型的语音识别解码器的方法。该方法通过GPU和CPU协同计算,利用GPU的浮点运算能力和并行计算能力加速神经网络计算,从而加快语音识别解码过程。为了充分利用计算资源,本文实现了多卡多线程GPU-CPU协同解码系统,并对神经网络计算过程进行了优化,以提升计算并行程度。所提出的加速方法与仅使用CPU的解码方法相比,取得了3倍以上的解码加速比,并保持解码精度不变。
- 张舸张鹏远张鹏远颜永红
- 关键词:语音识别解码器异构计算神经网络
- 语音识别系统及用于语音识别系统的特征矢量集的压缩方法
- 本发明公开一种用于语音识别系统的特征矢量集的压缩方法,在对语音特征矢量集聚类得到码本的过程中,增加了根据子集合中矢量数及矢量的总距离度量来动态合并和分裂子集合的步骤,减小了聚类后集合中矢量与其对应的码字的距离度量总和,提...
- 潘接林韩疆刘建颜永红庹凌云张建平
- 文献传递
- 基于加权有限状态机的动态匹配词图生成算法被引量:4
- 2014年
- 由于现有的加权有限状态机(WFST)解码网络没有精确词尾标记,导致当前已有的词图生成算法不含精确的词尾时间点,或者仅是状态、音素级别的词图,无法应用到关键词检索中。该文提出在WFST静态解码器下的语音识别词图生成算法。首先从理论上分析了WFST解码音素图和词图的可转换关系,然后提出了字典的动态音素匹配方法解决了WFST网络中词尾时间点对齐的问题,最后通过令牌传递的遍历方法生成了词图。同时,考虑到计算量优化,在令牌传递过程中引入了剪枝算法,使音素图转词图的耗时不到解码耗时的3%。得到的词图,不仅可以用于语言模型重打分,由于含有精确的词尾时间点,还可以直接应用到关键词检索系统中。实验结果表明,该文的词图生成算法具有较高的计算效率;和已有动态解码器的词图相比,词图中包含更多解码信息,在大词汇连续语音识别的重打分结果和关键词检索中都能取得更好的性能。
- 郭宇弘黎塔肖业鸣潘接林颜永红
- 关键词:自动语音识别关键词检索