Interspeech 2019 | 从顶会看语音技术的发展趋势 01

语音领域顶级学术会议 Interspeech 2019 于 9 月 15-19 日在奥地利格拉茨Graz举行。

技术小编小滴将在Interspeech会场每天带来今年的 语音技术发展趋势 ,本文选取论文仅代表小滴个人兴趣。

今天带来的是:9月16日主会议第一天上的 会议亮点开幕式介绍 ,以及在 语音识别 语音合成 自然语言理解 说话人识别 四个方面的深入技术解读。

会议亮点

今年的Interspeech在一些Oral Session里设置了一个Survey Talk的环节,来针对性介绍相关领域的技术。

Interspeech的Oral Session一般是那些相对关注度高的Session,一般被安排在整个会场最大展厅(Main Hall)里。

9月16日上午的End-to-end Speech Recognition的Session的第一个环节是一个40分钟的Survey Talk,内容是“ Modeling in Automatic Speech Recognition: Beyond Hidden Markov Models ”。同样在下午的Attention Mechanism for Speaker State Recognition的Session中有一个关于 When Attention Meets Speech Applications: Speech & Speaker Recognition Perspective 的Survey Talk。 

这两个Survey Talk讨论的主题虽然侧重有所不同,但都和Attention有着非常强的连接。

一个是从ASR建模的角度展开,从HMM出发,引出了CTC以及Attention等模型,并做了对比讨论。另一个是从Attention算法的提出以及在语音当中的应用展开,对比讨论了多种不同的Attention模型及其变种在语音识别和说话人识别的应用情况。

值得注意的是,Attention相关算法几乎出现在了今年Interspeech的所有语音识别或者说话人识别研究的文章中。从最开始Attention,到Listen-Attend-Spell,再到Self-Attention(或者Transformer),在不同的文章(无论Oral或者Poster)被大家多次介绍和分析,频繁出现在了相关文章Introduction环节中。

如第一个Survey Talk里面讨论的内容一样,语音识别经历了从2012年最开始的DNN的引入时的Hybrid HMM结构,再到2015年开始吸引大家研究兴趣的CTC算法,而后到近两年的Attention相关结构的研究热点。

当然Attention结构下,依然还有很多内容需要研究者们进一步地深耕:例如今天的Survey Talk里面提到的在一些情况下Hybrid 结构依然能够得到State-of-the-art的结果,以及语音数据库规模和Attention模型性能之间的关系。

开幕式

9月16日的上午Interspeech的开幕式上,主委会总结了今年的 论文赞助 情况。

语音技术深度解读

接下来技术小编将在语音识别,语音合成,自然语言理解和说话人识别四个方面的带来深入的语音技术解读。

语音识别

在此次会议上,端到端语音识别仍然是ASR研究的一大热点,正如上文提到的,基于Attention机制的识别系统已经成为了语音技术研究主流。

CMU和KIT的研究者在"Very Deep Self-Attention Networks for End-to-End Speech Recognition"文章中创新性地提出了一种非常深的自注意力机制的网络,采用这种Deep Self-Attention的网络,可以大幅提升端到端语音识别系统识别精度。

同时,随着端到端语音识别框架日益完善,研究者们对端到端模型的训练和设计更加的关注。RWTH的研究者在“RWTH ASR Systems for LibriSpeech: Hybrid vs Attention”一文中,详细的研究了基于端到端语音识别框架,我们可以从建模单元、声学模型建模模型、语言模型等各个方面来提升端到端识别系统的整体性能。

语音合成

高音质语音生成算法及Voice conversion是今年Interspeech研究者关注的两大热点。

IBMresearch的Zvi Kons等人在“High quality, lightweight and adaptable TTS using LPCNet”文章中,提出了一种基于LPCNet的TTS系统,此系统具有高音质、轻量化、适应能力强等优点。

而今年的Voice Conversion方向的研究重点主要集中在基于GAN的方法上。NTT的Takuhiro Kaneko在文章“StarGAN-VC2:Rethinking Conditional Methods for StarGAN-Based Voice Conversion”中,提出了第二代的StarGAN,该方法提出了一种新的源-目标条件对抗损失函数,这样可以把所有源域数据转换为目标域数据。同时文章提出一种新的基于调制方法的模型框架。从实验结果看,该方法可以大幅提升Voice Conversion的性能。

自然语言理解

在今年的会议中,在端到端的口语的语言理解(Spoken Language Understanding)的方法上,会大量侧重在基于预训练(Pretraining)的方法,也有一些使用新的建模单元(如基于帧),以及用GAN,对抗训练(Adversarial Training)来获取更加有效的口语文本的表示。

基于预训练(Pretraning)的方法可以缓解纯端到端的方法标注数据少以及很难训练的问题。这个方法主要是用其他相关任务中同领域/跨领域的有/无标注数据预训练一个模型。训练完模型,再利用该模型初始化或者知识蒸馏(Knowledge Distill)来指导当前的语言理解模型的训练,进而用该模型进行目标语言理解任务的学习。

基于预训练(Pretraining)的方法主要分为基于语音和文本。基于语音的方法主要有预训练ASR、Speaker模型;基于文本的方法主要有预训练Intent Detection、Slot Filling、Bert等方法。

在端到端的口语的语言理解(Spoken Language Understanding)中,对话生成的方法的主要是利用更多有用的信息来学习得到更加有效的对话的特征表示,从而生成更加丰富准确的对话回复,包括利用主题信息,考虑多轮层次结构信息,以及ASR的置信度。

说话人识别

在16日的会议中,有两个session与说话人技术相关。作为语音信号中的重要信息,说话人信息,特别是说话人识别及切分,正被越来越多的研究者所重视。

16日上午的Speaker Recognition and Diarization着重于说话人切分。

“Bayesian HMM Based x-Vector Clustering for Speaker Diarization”来自说话人技术大牛Lukáš Burget等人。论文介绍了在x-vector系统基础上引入贝叶斯隐马尔可夫模型结合变分贝叶斯推理来解决说话人切分问题的方法。相比传统的AHC聚类方法,论文提出的算法既快又好还鲁棒,带来的显著的性能提升。

“LSTM Based Similarity Measurement with Spectral Clustering for Speaker Diarization”作者为昆山杜克大学的Qingjian Lin与Ming Li等,着重解决说话人聚类中打分性能不好的问题。论文提出了直接使用LSTM替代PLDA作为说话人后端,来提升相似性打分性能。论文方法对DER有明显提升。 

“Speaker-Corrupted Embeddings for Online Speaker Diarization”提出了相当有意思的方法。在训练说话人向量提取器时,直接使用UBM超向量作为网络输入,加入其他说话人的信息来增强提取器的训练数据及泛化能力。然而仅使用了64 UBM使得该工作在大数据上的有效性存疑。

16日下午的Attention Mechanism for Speaker State Recognition探讨了Attention机制在ASR之外的应用方向。

综述由ASAPP的Kyu J. Han带来,详述了Attention机制在ASR领域的发展历程,以及在说话人识别上的应用。目前Attention在说话人方面更类似一种Time Pooling,比Average Pooling及Stats Pooling更能捕捉对说话人信息更重要的信息,从而带来性能提升。

随后的几篇论文大多探讨Attention机制在Emotion识别上的应用。

“Attention-Enhanced Connectionist Temporal Classification for Discrete Speech Emotion Recognition”主要结合CTC与Attention机制识别语音中的Emotion。在提问环节,有人问到为何结合两者,因为CTC与Attention机制都可以做序列分类,并且Emotion也不是序列转写问题。作者认为CTC可以通过加入静音Label的方式,将分类问题转为转写问题。

“Attentive to Individual: A Multimodal Emotion Recognition Network with Personalized Attention Profile”结合了多模输入,使用Attention机制优化不同属性说话人(例如老人、儿童等情感表现方式不同的人群)的Emotion识别效果。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章