EMNLP 2019论文分享 | Encoder1-Encoder2: 一种使用全局表示来增强局部特征抽取的文本分类新框架

EMNLP 2019收录论文分享《Enhancing Local Feature Extraction with Global Representation for Neural Text Classification》。

一、背景和动机

文本分类(Text Classification)是指将文本按照一定的分类体系或标准进行自动分类标记。作为一种经典的自然语言处理任务,文本分类技术被广泛应用于问题分类、情感分析、新闻主题分类等场景中。由于具备良好的解释性和通常更优的性能,基于局部特征抽取的方法(Ngrams[1][2], FastText[3], Region Embeddings[4], CNN[5], DRNN[6]等)是其中的一类典型方法。同时,为了更好的学习到长距离的依赖关系,已有的模型主要是在局部特征提取层的基础上,堆叠更深的同类型或不同类型的上层网络[7][8][9]。这种方式会造成网络过于复杂并且经常难以训练。

图1 长距离依赖对于文本分类的重要性

如图1所示,“Apple”本身具有歧义,如果它对应的局部特征无法从一开始就关注到相关的全局信息,就需要更复杂的上层网络去生成新的高阶特征并逐渐对它的语义表示进行修正。显然,这种方式并不高效。那么,如果模型在局部特征抽取过程中就直接融入全局信息,是否能够更高效更准确的进行分类呢?

为此,本文设计了一种神经网络分类框架,使得模型在局部特征抽取阶段就具有全局视野,从而避免复杂的上层结构,并且获得 SOTA 的实验效果。

二、Encoder1-Encoder2框架

基于上述动机,论文提出了一种新型的文本分类框架:Encoder1-Encoder2。具体来说,框架主要包括三个部分:

(1)Encoder1: 负责全局信息建模

Encoder1的作用是负责建模全局信息,实际的网络可以是任何能够进行全局语义表示的神经网络。本文对比了三种典型的候选网络(CNN/GRU/ATTENTION)。

(2)Encoder2: 融合全局信息的局部特征提取

Encoder2是变种的局部特征提取器,其输出会直接作用于 Softmax 分类器。区别于传统的局部特征抽取方法只关注于有限的窗口内容,Encoder2 会将从Encoder1 中提取到的全局信息经过处理后融合到自身的局部特征抽取过程中,使得提取出的局部特征在保持原本优势的基础上同时具有全局视野。具体地,我们将全局表示当作一个特殊字符并拼接在每个词序列窗口前,这样就能将它和局部上下文交互并一同被特征提取器编码。不失一般性地,本文改造了两种典型的模型 CNN 和 DRNN,它们分别擅长于捕捉局部空间信号与时序信号。

图2 Encoder1-Encoder2 框架结构图

(3)Interaction Modes: Encoder1 与 Encoder2 信息交互方式

Encoder1 的输出可以看作是 一本 “Reference Book” ,为了让 Encoder2 更好的从中提取出更有效的全局指导,我们设计了两种交互模式。S(SAME)模式的基本动机是每个局部窗口得到的参考都是相同的,通过在时序维度进行最大池化来实现;A(ATTEND)模式则是每个窗口会根据自身需要选择更有针对性的帮助,这个过程通过 Encoder2 中的局部上下文对 Encoder1 进行注意力机制来实现。

三、实验结果和分析

为了全面的评价提出的框架在文本分类上的效果,我们在8个不同规模的公开数据集上进行了评估,覆盖情感分析、新闻分类、问题分类和文本蕴含等领域。从对比结果(图3)可以看出,基于局部特征抽取的模型在文本分类数据集上往往表现更佳,而我们提出的使用全局表示来增强局部特征抽取的新型框架在所有数据集上都取得了最好效果(SOTA)。

图3 模型在分类数据集上准确率

同时,框架也具有很好的灵活性,Encoder1、Encoder2 和 Interaction Mode 之间可以有丰富的组合关系,并且任意的组合相较于相同的局部特征抽取模型都有明显的性能提升。论文也做了更详细的组合效果对比和消融实验(图4),实验结果表明:RNN/ATTENTION 相对于 CNN 更适合提供全局信息;DRNN 要比 CNN 更适合做局部特征抽取器;对于交互模式而言,A模式表现要略好于S模式。

图4 框架模块组合和消融实验

论文也进行了实际的 Case 分析,从可视化结果可以看出,我们的框架可以学到更好的实例相关的局部特征,对分类效果会更有帮助。

图5 Case 可视化分析

四、结束语

与传统使用更深更复杂的网络来解决文本长距离依赖问题的方法不同,论文提出了一种轻量级的文本分类框架:Encoder1-Encoder2。通过额外引入一个负责建模全局信息的编码器,显著增强了局部特征抽取式模型的效果。该框架兼顾灵活性和鲁棒性,并具有良好的泛化性能,为文本分类技术提供了一种新思路。

至此,《Enhancing Local Feature Extraction with Global Representation for Neural Text Classification》论文的分享到此结束,敬请期待更多百度NLP最新前沿进展分享。

(原论文内容可点击文末『 阅读原文 』链接查看)

参考文献

[1] Bo Pang, Lillian Lee, and Shivakumar Vaithyanathan. 2002. Thumbs up?: sentiment classification using machine learning techniques. In Proceedings of the ACL-02 conference on Empirical methods in natural language processing-Volume 10 , pages 79–86. Association for Computational Linguistics.

[2] Sida Wang and Christopher D Manning. 2012. Baselines and bigrams: Simple, good sentiment and topic classification. In Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Short Papers-Volume 2, pages 90–94. Association for Computational Linguistics.

[3] Armand Joulin, Edouard Grave, Piotr Bojanowski, and Tomas Mikolov. 2016. Bag of tricks for efficient text classification. arXiv preprint arXiv:1607.01759 .

[4] Chao Qiao, Bo Huang, Guocheng Niu, Daren Li, Daxiang Dong,Wei He, Dianhai Yu, and HuaWu. 2018. A new method of region embedding for text classification. In International Conference on Learning Representations .

[5] Yoon Kim. 2014. Convolutional neural networks for sentence classification. arXiv preprint arXiv:1408.5882 .

[6] Baoxin Wang. 2018. Disconnected recurrent neural networks for text categorization. In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) , volume 1, pages 2311–2320.

[7] Rie Johnson and Tong Zhang. 2017. Deep pyramid convolutional neural networks for text categorization. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), volume 1, pages 562–570.

[8] Alexis Conneau, Holger Schwenk, Loïc Barrault, and Yann Lecun. 2016. Very deep convolutional  networks for text classification. arXiv preprint arXiv:1606.01781.

[9] Yijun Xiao and Kyunghyun Cho. 2016. Efficient character-level document classification by combining convolution and recurrent layers. arXiv preprint arXiv:1602.00367.

【推荐阅读】 点击查看↓

EMNLP 2019论文分享  |  神经网络机器翻译多智能体联合学习模型(MAL)

EMNLP  2019论文分享  |  基于可解释图推理的知识感知对话生成模型

百度自然语言处理(Natural Language Processing,NLP)以『理解语言,拥有智能,改变世界』为使命,研发自然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章