从一般到特定知识的迁移,腾讯AI Lab 提出基于领域转化网络的多领域机器翻译

作者 | 腾讯 AI Lab

责编 | 贾伟

AAAI 是人工智能领域的顶级国际会议之一。今年的 AAAI 2020 是第 34届,于2月7日至12日在美国纽约举行。今年,第 3 次参会的腾讯 AI Lab 共有 31 篇论文入选,涵盖自然语言处理、计算机视觉、机器学习、机器人等领域。今天我们要解读的入选论文是:《Go From the General to the Particular: Multi-Domain Translation with Domain Transformation Networks》。

这篇论文由腾讯 AI Lab 主导,与香港大学合作完成。文章提出了一种新的领域转化网络,可实现从一般知识到特定知识的迁移,进而实现多领域机器翻译。  

论文地址: https://arxiv.org/abs/1911.09912

本项目的代码和数据集:https://github.com/wangyong1122/dtn

近几年,神经机器翻译(NMT)技术取得了令人瞩目的突破。然而,真实的翻译系统需要大规模的训练数据,其中往往混杂了多种不同领域的句子。一方面,不同的领域知识在文体、句式、术语上具有显著的差异性(特定知识);另一方面,自然语言又具备跨领域的共性知识,如语法、词汇等(一般知识)。因此,多领域翻译是大数据训练中的一个切实存在的挑战: 在混合领域数据上训练的标准神经网络机器翻译模型通常只会捕获一般知识,而特定知识常常被忽略或干扰。

针对该问题,作者提出使用领域转化网络将一般知识的表征转化为特定领域的知识,然后再将转化后的表征传给解码器。从一般到特定的知识转化可以有效地帮助NMT降低领域间的相互干扰。为了确保知识的转化过程,作者还基于知识提炼和对抗学习提出了两种互补的监督信号。作者还在多种数据上进行了实验,结果表明该方法是有效的和普适的。更令人鼓舞的是,本文提出的单模型方法能得到与多模型的微调方法(fine-tuning)相媲美的结果。进一步的分析表明,领域转化网络能成功地习得特定领域的知识。

本文提出的模型框架如下图所示,其由两个关键的模块组成:

(1) 领域转化模块,能将共享知识的表征变换成特定领域知识的表征,对于每个领域,我们维持各自的变换通道;

(2) 领域监督模块,包含了两个部分:领域判别和领域蒸馏。领域判别引导领域转化模型学习通用和特定领域表征的差异性。领域蒸馏则利用各个领域教师模型使学生模型探索各种领域信息。

图1. 本文提出的多领域翻译模型框架

首先,领域转化网络的目的是从共享知识中学习到每个领域特定的表征。作者使用共享编码器将源端句子x编码成共享的表征H,基于这个表征空间,再使用残差模块生成领域的特定表征H’,即:

其中,Wn是对应于第n个领域的参数,F(·)是一个可以使用任何神经网络实现的函数映射,输出的表征H’输入到解码器中,生成目标序列y,实现中作者使用多头注意力机制模块作为领域变换网络。

然后,对于每个样本,作者通过领域教师模型产生的软目标分布和目标句子的硬分布进行线性插值产生新的训练目标。形式上,标准NMT的建模翻译过程为:

其中,(x,y)是训练语料中的双语句对, 是源端句子, 是目标端句子,是神经网络的参数,采用基于领域的知识蒸馏方法后,新的训练目标为:

其中 是领域教师模型产生的软目标分布。|V|是目标语言的字典的词的数目。这个优化目标可以使学生模型从数据中探索更多的信息,包括一般和特定领域的信息。

进一步,作者将对抗和判别学习引用到了基于领域转化网络的NMT中,确保模型能够有效地抽取、区分领域共享的和领域特定的特征。具体地,对抗领域判别器被增加到领域变换网络的输入端,而领域判别器被扩充到领域判别网络的输出端,其新的训练目标为:

其中,δ 是平衡系数,H(·)是对抗领域分类器的N个领域标签的概率分布的熵。在训练中,采用轮换方式优化{δ,γ}和ψ。

为了验证该方法的有效性,作者在多个公开数据集上进行实验。如下表1所示,数据集涵盖了不同语言对(中英、德英、英法)、不同数据规模(单位:百万)、不同多领域配比场景(平衡、不平衡)。

表1. 不同实验数据集的统计情况

首先,作者在中英的四个领域数据上验证了模型的翻译效果,结果如下:

表2. 在中英小规模多领域数据集上的结果

表3. 在中英大规模多领域数据集上的结果

从表2和表3可以观察到,本文提出的模型性能超过了多个主流的多领域NMT模型,并且取得了跟微调方法相媲美的结果。另外,作者也在其他数据集上取得了一致的实验结果。值得注意的是,本模型仍为单一模型,而微调方法需要N个模型来保持特定领域的特性,因此从真实系统的角度考虑,本方法更具实用价值。

最后,作者通过一系列的分析进一步说明了该方法可以更好地学习特定领域的知识来提升翻译质量。如图2所示,作者测试了不同领域转化模块的翻译性能,发现每个转化模块在相应的领域测试集上表现最佳,这与论文的期望是一致的,即每个转换组件都专门用于维护一个特定领域的知识。图3可视化了表征空间的变换过程,编码器的表征的分布集中于保存共享的知识,而转换后的表征则更多样化,以保持特定领域的特征。由此可见,该方法能够将源端知识从一般性转化为特定性。

图2. 在中英小规模多领域数据集上各领域变换网络对各领域的翻译性能

图3. 解码器输出和转化网络输出的表征可视化

此外,作者还对比了不同的领域监督策略,发现领域判别和领域蒸馏可以互补地提升翻译性能,并且词级知识蒸馏方法优于序列级方法。总之,这项研究对机器翻译等任务中的多领域知识迁移、学习问题具有重要的指导意义。更值得一提的是,本方法在没有增加参数量的情况下,能使单一模型具备多模型的性能,在真实系统上具有一定的应用价值。

AAAI 2020 报道:

新型冠状病毒疫情下,AAAI2020 还去开会吗?

美国拒绝入境,AAAI2020现场参会告吹,论文如何分享?

AAAI 最佳论文公布

AAAI 2020正式开幕,37%录用论文来自中国,连续三年制霸榜首

Hinton AAAI2020 演讲全文: 这次终于把胶囊网络做对了

AAAI 2020 论文集:

AAAI 2020 论文解读会 @ 望京(附PPT下载)

AAAI 2020上的NLP有哪些研究风向?

微软 6 篇精选 AAAI 2020 论文

京东数科 6 篇精选AAAI 2020 论文

AAAI 2020 论文解读系列:

01. [中科院自动化所] 通过识别和翻译交互打造更优的语音翻译模型

02. [中科院自动化所] 全新视角,探究「目标检测」与「实例分割」的互惠关系

03. [北理工] 新角度看双线性池化,冗余、突发性问题本质源于哪里?

04. [复旦大学] 利用场景图针对图像序列进行故事生成

05. [腾讯 AI Lab] 2100场王者荣耀,1v1胜率99.8%,腾讯绝悟 AI 技术解读

06. [复旦大学] 多任务学习,如何设计一个更好的参数共享机制?

07. [清华大学] 话到嘴边却忘了?这个模型能帮你 | 多通道反向词典模型

08. [北航等] DualVD: 一种视觉对话新框架

09. [清华大学] 借助BabelNet构建多语言义原知识库

10. [微软亚研] 沟壑易填:端到端语音翻译中预训练和微调的衔接方法

11. [微软亚研] 时间可以是二维的吗?基于二维时间图的视频内容片段检测

12. [清华大学] 用于少次关系学习的神经网络雪球机制

13. [中科院自动化所] 通过解纠缠 模型探测语义和语法的大脑表征机制

14. [中科院自动化所] 多模态基准指导的生成式多模态自动文摘

15. [南京大学] 利用多头注意力机制生成多样性翻译

16. [UCSB 王威廉组] 零样本学习,来扩充知识图谱(视频解读)

17. [上海交大] 基于图像查询的视频检索,代码已开源!

18. [奥卢大学] 基于 NAS 的 GCN 网络设计(视频解读)

19. [中科大] 智能教育系统中的神经认知诊断,从数据中学习交互函数

20. [北京大学] 图卷积中的多阶段自监督学习算法

21. [清华大学] 全新模型,对话生成更流畅、更具个性化(视频解读,附PPT)

22. [华南理工] 面向文本识别的去耦注意力网络

23. [自动化所] 基于对抗视觉特征残差的零样本学习方法

24. [计算所] 引入评估模块,提升机器翻译流畅度和忠实度(已开源)

25. [北大&上交大] 姿态辅助下的多相机协作实现主动目标追踪

26. [快手] 重新审视图像美学评估 & 寻找精彩片段聚焦点

27. [计算所&微信AI] 改进训练目标,提升非自回归模型翻译质量(已开源)

28. [中科院&云从科技]: 双视图分类,利用多个弱标签提高分类性能

29. [中山大学] 基于树状结构策略的渐进强化学习

30. [东北大学] 基于联合表示的神经机器翻译(视频解读)

31. [计算所]引入评估模块,提升机器翻译流畅度和忠实度(视频解读)

32. [清华大学]用于少次关系学习的神经网络雪球机制(视频解读)

33. [计算所]非自回归机器翻译,基于n元组的训练目标(视频解读)

34. [清华大学] 司法考试数据集(视频解读,附下载链接)

35. [自动化所] 弱监督语义分割(视频解读)

36. [自动化所] 稀疏二值神经网络,不需要任何技巧,取得SOTA精度(视频解读)

37. [华科&阿里] 从边界到文本—一种任意形状文本的检测方法

38. [上交大&云从科技] DCMN+ 模型:破解「阅读理解」难题,获全球领先成绩

39. [自动化所&微信AI] 双通道多步推理模型,更好解决视觉对话生成问题

40. [ETH Zurich] 反向R? 削弱显著特征为细粒度分类带来提升

41. [中科大] RiskOracle: 一种时空细粒度交通事故预测方法

42. [华为] 短小时序,如何预测? ——基于特征重构的张量ARIMA

43. [清华大学] 棋盘游戏做辅助,进行跳跃式标注(视频解读)

44. [商汤]  新视频语义分割和光流联合学习算法

45. [商汤]  新弱监督目标检测框架

46. [第四范式]  优化NAS算法,速度提高10倍!

47. [牛津大学] 利用注意力机制,实现最优相机定位(视频解读)

48. [天津大学] DIoU和CIoU: IoU在目标检测中的正确打开方式

49. [宁夏大学] 面向大规模无标注视频的人脸对齐方法

50. [商汤] KPNet,追求轻量化的人脸检测器(视频解读)

51. [东北大学]  源和目标语句不再独立,联合表示更能提升机器翻译性能

52. [ 腾讯AI Lab] 完全依存森林: 大幅缓解关系抽取中的错误传递

点击“ 阅读 原文 ” 前往  AAAI 2020 专题页

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章