NIST声纹识别评测成绩公布,清微智能&清华解决方案技术解读

近日,NIST声纹识别评测(SRE19)和多媒体评测(VAST19)大赛正式公布成绩,清微智能,清华大学等组成的团队,获得这两项赛事全球前十,亚洲地区第一的好成绩。

NIST SRE和VAST分别是是由美国国家标准技术署主办的国际上最权威亦是规模最大的声纹识别技术评测和多媒体评测,为全球的参赛机构提供一个公平的统一测试平台——包括效果评测数据集和训练集。

本文总结了该团队此次声纹识别竞赛中的关键技术点。

关键技术一: FTDNN & EFTDNN

在这次评测中,团队基于目前State of the art的框架X-vector, 在主流的TDNN上做了两个改进,分别是FTDNN和EFTDNN。 FTDNN把TDNN 1024*1024的层拆成两层:1024*256,256*1024,网络从随机初始化开始训练,在参数更新的过程中,后一层每4个step半正交化一次。例如,传统的节点数为1024的TDNN层,被分解为两个卷积核为2*1,节点数为256的卷积层,其中第二个卷积层在训练的过程中是限制半正交的。这样的FTDNN结构虽然层数加深,但是参数量反而变小,这样使得在同等参数量的情况下,FTDNN的性能更好。

此外,通过使用更大的数据集建立更深、更大的深度声纹模型EFTDNN(extended factorized TDNN),在单系统上获得了不错的性能。采用“factorizing the convolution”和“3-stage splicing”的分解方式,例如:传统的节点数为1024的TDNN层,被分解为两个卷积核为2*1,节点数为256的卷积层,和一个卷积核为2*1,节点数为1024的卷积层,其中前两个卷积层在训练的过程中是限制半正交的。这样的FTDNN结构虽然层数加深,但是参数量相差不大。同时,引入AM-Softmax (additional margin softmax) 让深度模型获得更稳定的和更快的收敛,进一步提升了声纹识别的性能。

关键技术二:多任务学习机制融合语音文本上下文信息

团队使用多任务学习机制,将语音信息导给给基于X矢量架构进行声纹嵌入提取。将声纹识别和语音识别任务联合学习,借助音素信息和语音文本上下文信息对声纹更有效的建模。其中,语音帧级别的语音识别模型和语音段级别的声纹识别模型共享了7层TDNN的参数,在训练的过程中,输入数据对应的声纹标签用于更新声纹模型,对应的文本标签用于更新语音识别模型。由于同时含有声纹标签和文本标签的数据集很有限,为了产生其他声纹语料的文本标签,引入了一个额外的GMM-HMM模型用来对齐语音帧和文本标签。将语音向量与X-vector网络共同优化,并提供辅助信息以适应声纹特征,可以同时在帧和片段级别上得到有效结果。共享层提取信息特征,使网络更稳健,避免出现过拟合的情况。

关键技术三:融合语音适应与多任务学习机制

在语音适应方法中,语音内容被认为会对声纹验证任务产生负面影响。相反,混合多任务学习利用有用的语音信息来改善模型的概括性。于是,在多任务学习框架的基础上又做了改进,生成了C-vector,从预训练好的声学模型中提取音素向量,拼接在Multi-task声纹识别模型的池化层前。它融合了Multi-task和phonetic adaptation,进一步挖掘语音文本信息对声纹识别任务的有用信息。在C-vector架构中,使用了两个独立的语音分支。为什么要采用这种形式?因为这两个子网是通过不同的目标功能进行优化的,但是还需要限制模型大小。团队注意到,在多任务学习中,区分语音的网络也提供逐帧的语音信息。因此简化的模型可以删除预训练的声学模型,然后将BN层合并到语音区分网络中,并从该层中提取语音矢量。

关键技术四:启发式后端对X -vector 进行信道补偿和分类

在X-vector特征中,即包括了声纹信息又包括了信道信息,因为团队奖重点放在了声纹信息上,所以在X-Vector中存在信道信息的干扰,这会降低系统的性能表现。于是,团队还需要通过信道补偿算法来减少这种影响。除了数据级和模型级的改进,针对域不匹配的问题,后端团队采用启发式算法,遍历不同的后端策略,线性鉴别分析(Linear Discriminant Analysis,LDA)和概率线性判别分析(Probabilistic Linear Discriminant Analysis,PLDA),LP-LDA,以及MotPLDA,尽量减少训练、测试数据不匹配带来的影响。

SRE是美国国家标准技术署(NIST)主办的全球最权威的语音识别领域竞赛,很多国内外的大型企业、团队会参与其中。据悉,今年获得全球第一的是来自美国的一家公司,因为其采集了更多in-domain数据,未来该赛事也许将会改为close-data赛制,更加体现技术的重要性。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章