深度学习十年发展回顾:里程碑论文汇编(下)

2016

运用深度神经网络和树形搜索精通围棋(被引用6310次)

有监督学习和强化学习传递途径;策略/价值网络架构


在深蓝打败Kasparov后,AI社区向围棋届称霸进军。相对国际象棋,围棋有更广阔的游戏阵地,也更依赖于人类玩家的直觉。在AlphaGo之前类似于Crazy Stone和Zen等最优秀的围棋AI系统,基本都是带有许多手工探索引导树形搜索的蒙特卡洛树形搜索组合。从这些AI系统的进展来看,打败最优秀的围棋选手还需要很多年。虽说之前已有将深度学习应用于围棋的尝试,还没有哪个AI系统达到了AlphaGo的成就,而AlphaGo也用巨型算力集成了不少这些尝试中的技术成果。具体来说,AlphaGo包含一个策略网络和一个价值网络,分别可以缩小树形搜索,和对树形搜索舍项。这些网络最开始由标准有监督学习训练,之后再接受强化机器学习。


在以上列举的进展中,AlphaGo的AlphaGo对Lee Sedol比赛,大概对公众思想影响最为深刻,受众约由1亿人口,尤其是在围棋十分流行的中日韩三国。这场比赛和之后的AlphaGo Zero对战甚至对人类的围棋策略都产生了影响。举个例子,AlphaGo在第2场比赛37手下的棋非常反传统,惊异到了许多分析者。这一手后来成为AlphaGo战胜的至关重要的一步。


著名论文对其的引用:

  • 不用人类经验而精通围棋: 这篇介绍AlphaGo Zero的文章,移除了受监督学习过程,通过对战自己来训练策略和价值网络。虽然未受人类围棋策略的影响,AlphaGo Zero却能自己走出许多人类围棋手的策略,此外还能独创自己更优的围棋策略;这些策略甚至与传统围棋思路中的假定是相悖的。

2017

注意力机制即你所需(5059次引用)

转换器架构是利用注意力机制的一个例证,已经发展成为几乎今天所有最先进的自然语言处理模型的基础。转换器模型击败RNNs,很大程度上是由于它在巨型网络中的计算优势。在RNNs中,梯度需要在整个“展开”的图形中传播, 这使得内存访问成为很大瓶颈。这也恶化了梯度消失/爆炸(exploding/vanishing gradients)问题,从而需要更复杂(计算成本更高)的LSTM和GRU模型。相反,转换器模型对高度平行处理进行了优化。计算成本最高的部分位于注意层(能平行使用)之后的前馈网络和注意层本身(巨大的矩阵乘法表,易于优化)。

使用增强学习的神经架构搜索(引用1186次)

神经架构搜索(NAS)已成为网络性能压缩领域的普遍做法。NAS能实现架构设计自动化,而非令人痛苦的人工设计。在这篇论文中,利用RL训练一个控制器网络,从而生产性能网络架构,而这个架构能创建许多SOTA网络。相反,其他方法,例如Regularized Evolution for Image Classifier Architecture Search (AmoebaNet),使用了演化算法。

2018

BERT:语言理解的深度双向转换器的预训练

BERT与GPT、ELMo的比较

BERT是一种双向语境文本嵌入模型。与word2vec相似,它的基础是给每个单词(or, rather, sub-word token)赋予一个向量。但BERT里的这些向量是语境化的,能正确区别同形异义词。另外,BERT是深度双向的,每层中的每个潜在向量依赖于前一层中的所有潜在向量,这是与GPT(仅包含前向)和ELMo(包括了独立的前向和后向语言模型,两者到最后才结合)等早期工作不同之处。

如在类似GPT的单向语言模型中,训练模型在每个时间步骤(time step)去预测下一个标记(token),这种模型行得通是因为每个时间步骤的状态仅依赖于上一个状态。(在ELMo中,前向和后向模型用这种方法独立训练,共同优化。)但在深度双向网络中,步骤tt 和层LL的状态S^L_tStL 必须依赖于所有 S^{L-1}_{t'}St′L−1的状态, 而这些状态中的任意一个反过来依赖于S^{L-2}_{t}StL−2的状态,从而使得网络能欺骗语言模型。为了解决这个问题,BERT运用重构任务去恢复隐藏标记(masked tokens),而网络看不到这些隐藏标记。


著名文章对其的引用:

自BERT发表以来,其他基于转换器的语言模型层出不穷。由于这些模型较为相似,我仅列举其中一些。当然,这个领域发展迅猛,无法做到全面;而且,很多论文还有待时间验证,哪些论文影响最大尚难定论。

  • 深度语境化词语表征: 即前文提到的ELMo论文。ELMo是不是首个语境文本嵌入模型(contextual text embedding model)存在争议,但在实践中BERT更为流行。

  • 使用生成式预训练提高语言理解力: 即前文OpenAI发表的GPT论文。这篇文章深入研究了在多个不同类型问题中,使用相同预训练参数(仅简单微调)在下游任务中进行训练的想法。考虑到从头训练现代语言模型的高昂代价,这个方法非常具有说服力。

  • 语言模型是无监督多任务学习者: GPT2,OpenAI的GPT模型后继者,很大程度上是GPT的扩展版本。它具有更多参数(高达15亿个),更多训练数据,更好的跨国测试困惑度。它的跨数据集泛化水平令人印象深刻,为超大网络泛化能力提供了进一步证据。但是,它的声望来自于强大的文本生成能力。我对文本生成有更深入的讨论,希望它有趣。GPT2的发布策略招致了一些批评,据称该策略的设计目的是为了最大化炒作。

  • Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context:基于转换器的模型有固定的注意力长度,阻碍了对长文本语境的关注。通过关注来自于上一个注意力范围内的某些语境文本(为了计算可行没有传播梯度),来实现更长的有效注意力范围,Transformer-XL试图采用这种方式来解决这些问题。

  • XLNet: 语言理解的广义自回归预训练方法:XLNet以多种方式解决了BERT面临的“欺骗”难题。XLNet是单向的,但是利用转换器对输入顺序的内在不变性,令牌能按任意顺序变换。这使得网络能有效地双向工作,同时保持单向性的计算优势。XLNet也集成了Transformer-XL思想。

  • 具有子词单元的罕见词的神经机器翻译: 更好的标记技术被认为是最近兴起的语言模型的核心内容。通过分段标记所有单词,这些技术消除了未登录词标记的可能性。

2019

深度双波谷:更大的模型和更多的数据伤害了谁 

这篇文章所探讨的深度双波谷( (Deep) Double Descent)现象与经典机器学习和现代深度学习的流行观点背道而驰。在经典机器学习中,模型复杂性伴随着偏差-方差权衡。模型太弱,则不能充分捕捉数据结构,而模型太强,则会导致过拟合,涵盖了无法泛化的虚假模式。正因为如此,在经典机器学习中,随着模型变大,测试误差预期会下降,而一旦模型开始过拟合,那么测试误差又开始增加。

实践中,在深度学习中,模型通常过度参数化,但看上去对较大模型的测试性能有所改进。这种冲突是隐藏在深度双波谷( (deep) double descent)背后的动机。深度双波谷扩展了Belkin 等人Double Descent论文, 通过实证证明了Double Descent对更广泛类型的深度学习模型的效果,以及它对模型大小、训练时间和数据集大小的适用性。


如果考虑了更多的函数类,这些函数类包含更多与数据适配的候选预测因子,我们可以发现具有更小范式因而也更简单的插值函数。因此,增加函数类容量将改进分类器的性能。


当模型容量接近于“插值阈值(interpolation threshold)”,即经典机器学习和深度学习的分界线,梯度下降法可能会发现接近于零误差的模型,很可能导致过拟合。但是,当模型容量进一步提高,可实现零训练误差的不同模型的数量增加,一些模型平滑拟合数据(也就是,不发生过拟合)的可能性增加。Double Descent假设,梯度下降法更可能发现这些更平滑的零训练误差网络,尽管这些网络过度参数化,但泛化性确很好。

彩票假说:发现稀疏可训练的神经网络

另一篇关于深度神经网络训练特征的论文就是彩票假说论文。彩票假说认为,网络性能大部分来自于某些幸运初始化的特定子网络(也就是说,“彩票”,特指这些子网络),而且更大的网络彩票发生的概率更高,因而性能也更好。这不仅允许我们剪除不相关的权重(文献中已很好地论证),而且还允许我们仅使用“彩票权重”重新训练,令人惊讶的是,这种方式结果与原始结果较为接近。


任何密集、随机初始化的神经网络都包含一个子网络。这个子网络能通过初始化,使得隔离训练时,该子网络在经过不多于原密集网络学习迭代次数的前提下达到与原网络相当的训练效果。

结论与未来展望

过去的十年由深度学习革命(梯度网络的复兴)的肇始而驱动,标志着人工智能历史上一个令人难以置信的快速发展和创新时期。很大程度上得益于可用算力的不断提高,神经网络规模变得越来越大,能力也越来越强,在全球范围内从计算机视觉到自然语言处理,全面代替了传统的人工智能技术。但神经网络也有缺点:他们需要海量数据进行训练、失败模式无法解释、无法实现超越个体任务的泛化。

由于人工智能领域的巨大进步,深度学习在提高人工智能方面的局限性已经开始显现,人们的注意力开始转向对深度学习的更深入理解。在未来十年里,人们可能会越来越了解今天所观察到的神经网络的许多经验特征。就我个人而言,我对人工智能的前景持乐观态度;深度学习是人工智能工具箱中非常宝贵的工具,它让我们对智能的理解又近了一步。


向成果丰硕的21世纪20年代致敬!


相关报道:

https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

转自:大数据文摘

来源:leogao.dev

编译:武帅、狗小白、马莉

推荐阅读:

2020年,LeCun、周志华、李开复等大佬对AI有何期待?

2020职场AI技能排行榜单新鲜出炉!

2020 年值得关注的十大技术趋势

我知道你 在看

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章