研究了将自适应领域的最大似然线性回归(Maximum likelihood linear regression,MLLR)变换矩阵作为特征进行文本无关的说话人识别算法.本文引入了基于统一背景模型的MLLRSV-SVM说话人识别算法,并在此基础上进行高层音素聚类以进一步提高识别性能.在采用多种信道补偿技术后,在NISTSRE2006年1训练语段-1测试语段同信道和跨信道数据库上,基于MLLR特征的系统与其他最好的系统性能接近并有很强的互补性,经过简单线性融合可以极大提高识别性能.
在说话人识别研究中,基于身份认证向量(Identity vector,IVEC)的说话人建模方法可以有效地提取说话人信息,是目前处于国际前沿的建模方法.本文对身份认证向量后接支持向量机(Identity vector followed by support vector machine,IVEC-SVM)的说话人识别系统进行了研究,对比了该系统在十种不同核函数下的识别性能,并与文献中身份认证向量后接余弦距离打分(Identity vector followed by cosine distance scoring,IVEC-CDS)系统进行了比较.在美国国家标准技术局(American National Institute of Standards and Technology,NIST)组织的2010年电话信道—电话信道说话人识别核心评测数据库上的实验结果显示,基于核函数的IVEC-SVM系统性能明显优于IVEC-CDS的系统性能.此外,实验结果表明基于Spline核的IVEC-SVM系统可取得最好的识别性能,与IVEC-CDS系统相比,其等错点(Equal error rate,EER)在分数归一化前后分别降低了10%和3%.