ICCV 2019 | 马里兰&UC 伯克利共同提出:适应不断变化环境进行语义分割

本文为读者投稿,投稿方式见文末。

作者 | BBuf

编辑 | 唐里

下面要介绍的论文发表于ICCV2019,题为「ACE: Adapting to Changing Environments for Semantic Segmentation」。

论文地址:

https://arxiv.org/abs/1904.06268v1

当深度神经网络在相同的数据分布上进行训练和测试时,它表现出了卓越的准确性。 然而,当输入数据的分布随着时间改变的时候,神经网络分类器通常非常脆弱。 本文提出了一个新的语义分割框架ACE,可以随时随地动态适应不断变化的环境。 通过将原始的数据分布和移位后的数据分布进行对齐,ACE在新的数据分布中会自动合成用于当前数据分布中的新标签。 同时,为了防止遗忘历史环境中的知识,论文引入了一个存储器来存储历史数据分布对应的特征统计信息。 论文除了使用SGD优化模型,还尝试了基于自适应元学习的快速学习方法。 论文在SYNTHIA数据集上做了大量测试,证明了该方法在解决多项任务时的有效性。 ACE框架的整体结构如图Figure 1所示:

1. 研究背景

当计算机视觉系统在现实场景中部署时,不断变化的环境和不稳定的输入分布成为了重大挑战。 例如,使用在晴天收集到的图像训练的深度神经网络可能在夜晚彻底失效。 事实上,最近的研究表明深度神经网络即使是在输入分布有微小变化时也会表现出严重的不稳定性,更不用说在面对动态变化的信息流时。 论文针对我们的一个具体任务语义分割,引入了ACE。 这是一个可以自适应调整预训练的模型以适应顺序到达的新任务。 特别的,对于一个新任务,我们使用一个数据生成器来对齐当前分布中的标签数据和原始数据分布中的标签。 这会产生颜色,纹理等特征都和新任务的数据分布比较吻合的标签图像,然后就可以用新产生的标签训练新任务的数据。 风格迁移是通过重新规范化原始图像的特征映射,使它们具有与目标图像匹配的一阶和二阶特征信息。 最后,这些规范化的特征被送入一个生成器产生特定风格的图片。

ACE的一个亮点在于它可以终身学习。 为了防止遗忘,ACE包含了一个用于存储不同风格的特征信息的紧凑且轻量的记忆单元。 这些特征信息足以在不存储任何历史图像的情况下生成任意历史风格的图像,有效防止灾难性遗忘问题。 整个生成和分割的框架可以使用SGD进行端到端的训练。 最后,我们使用了自适应元学习,以便在遇到新环境时可以更加快速的适应。

2. 相关工作

2.1 无监督的域自适应

我们的工作涉及无监督的域自适应,旨在改善没有标签的情况下用之前训练好的模型测试新的数据分布的性能。 当前存在一些方法,基本都是最小化原始数据和目标数据分布的距离,例如使用最大均值差异,协方差等明确指标,或者反向梯度,域混淆,对抗生成网络等隐式指标。

对于分割任务来讲,不同域的像素级图像转换需要让他们看起来是从同一目标刻画出来的,以减少纹理,光照的不一致。 已经有一些论文提出了一些方法尝试解决这个问题。 本论文的框架不同于之前的工作,因为这里是要自适应一系列的测试域而非单个域。 此外,我们的方法也和一些对齐特征级别信息的分类任务相关,不过我们的关注点是像素级的特征信息对齐。

2.2图像合成

使用生成对抗网络(GAN)来进行图像合成越来越火,这种图像合成方式被认为是生成器和鉴别器之间的极大极小博弈。 为了控制生成过程,加入了许多额外的信息如标签,文本,属性和图像等等。 GAN还用于图像到图像转换的上下文中,其使用循环一致性或映射到共享特征空间将图像的样式转换为参考图像的样式。 在不知道域的联合分布的情况下,这些方法试图从每个域中学习边际条件分布。 然而,利用GAN生成高分辨率图像仍然困难且是密集计算型的。 相比之下,神经网络风格迁移方法通常避免了生成模型的困难,简单地匹配特征统计Gram矩阵或执行通道独立的均值和方差对齐。 ACE就在风格迁移的基础上,以当前任务的图像风格合成新的图像,同时保留原图像的语义信息。

2.3 终身学习

论文的工作和终身学习或者说持续学习相关,都是逐步学习并使用过去积累的知识适应新任务。 大多数现有的工作都侧重于学习新任务时减轻灾难性遗忘。 我们工作重点是如何无监督的自适应新任务的语义分割任务,每个新任务的图像分布与最初用于训练的图像分布不同。 此外,为了避免忘记过去的知识,使用它们的特征信息来表征和编码对应风格。 因为这种表示比原始图像小得多,所以框架是可扩展的。

2.4元学习

元学习,也称为学习如何学习,可以快速适应来自同一分布的新任务。 元学习分为三类: (i)基于模型。 (ii)基于度量。 (iii)基于优化。 现有的方法主要集中在少量小样本分类,回归和强化学习问题,而我们的方法侧重于如何有效地适应分割模型。

3. 方法

ACE的目标是使来自原始任务的分割模型适应多个顺序出现的具有不同图像分布的任务。 该方法将标记的源图像转移到目标域中以创建用于分割模型的合成训练数据,同时记忆历史数据特征信息用于防止遗忘。 我们用 表示原始任务, 表示顺序给定的 个目标任务。 进一步,使用 代表原任务N个图片以及对应的标签。 对于图片中的每个像素 ,标签 代表一个one-hot编码的向量。 我们把第i张图片表示为 ,标签图表示为 ,其中H和W代表图像长宽,C代表语义分割的分类数。 再定义 代表第t个顺序出现的任务,其中包含和原始图像相同分辨率的 张图片。 ACE包含4个关键组成部分: 一个编码器,一个生成器,一个记忆单元,和一个语义分割网络。 编码器网络将原始图片 转换为一个特征图表示 ,在这里是512个特征图。 生成器网络将特征图z转换为图像。 目标图像的风格就用在生成器之前的特征向量的均值和方差来描述。 记忆单元记住每一种风格图像的特征数据(1024值,就是512个特征图的均值和方差)。 通过从记忆单元中检索相关数据风格的特征,将原图像的特征图重新规范化以具有相应的数据特征,然后将特征传给生成器创建图像,可以将源图像风格化为任何先前遇到的域中的图像。

ACE框架的大致结构如图Figure 2:

3.1 通过编解码和解码器合成图像

当一个新任务出现时,通过对源图像域进行风格迁移到目标图像域来获得标注好标签图像。 为了做到这一点,我们联合训练了一个生成网络来产生风格化的图片,一个语义分割网络来对目标域图像进行分割。 生成网络从提取一张图片的特征图开始,我们使用预训练的VGG19网络作为编码器,我们拿出relu4层的特征作为编码结果,编码器的权重在对图像 训练提取固定特征表示 时被冻结。 图像生成器 ,权重参数用 表示,将特征图反卷积为图像。 输出图像的风格信息可以用AdaIN从目标图像中借鉴过来,即是重新规整化原始图片的特征图 使得它和选定的目标图像特征图 有相同的均值和方差。 如公式1所示:

这里

代表特征图z每个通道的均值和方差。 归整化的特征图 可以放进生成器产生一个新图片 如果参数 适当,结果图像就可以在 的风格下拥有

的语义信息。

我们训练生成器让它表现为编码器的反过程,编码器应该可以和生成图片产生的特征图相匹配。 我们通过最小化以下损失函数来实现:

3.2 语义分割网络

被合成的图像 被分割网络 来处理,参数用 表示。 网络产生一个标签图 然后使用逐像素的多分类交叉熵损失来训练。 另外,由于合成图像可能会丢失原始图像的某些细节降低分割网络的性能,我们进一步约束合成图像 通过网络产生的分割结果 和原始图像 的分割结果 越接近越好。 这个是通过测量这两个输出的KL散度来得到,语义分割的损失函数最终表示如下:

最后,我们将公式(2)和公式(3)组合一下,得到我们最终的目标函数如下:

其中 代表网络的参数。 注意,分割网络的参数隐式依赖于生成器的参数,因为分割网络是在生成器的结果上进行优化的。

3.3 记忆单元与风格重放

优化等式4减少了原任务和目标任务的差距,但目前还未明确如何不断调整模型适应不同的传入任务序列且不忘记过去学习到的知识。 一种简单的方法是存储先前任务的历史图像库,然后在新任务中从库里面随机挑选图片再训练。 但是,这需要很大的内存空间,通常是不可行的,特别是对于语义分割这种图片具有高分辨率的任务。

幸运的是,等式1提出的合成目标图像只需要原始图像和特征图 每个通道上的均值和方差。 所以,我们只需要将特征数据保存在内存 中就可以完成有效的重放。 当我们学习第t个任务 时,我们选择一个测试集图像并存储它们的1024维度的特征。 当处理第 个任务时,我们随机挑选 中的图像来对当前让任务的图像风格化,使得其具有 的风格。

3.4 通过元学习实现快速自适应

元学习最近的一些方法可以产生具有元参数的灵活模型,使其仅使用少量的SGD更新就可以快速适应新任务。 标准SGD在足够数量epoch内,优化等式4时有好的表现。 我们现在探索一下自适应元学习是否能够产生加速自适应过程的模型。 为此,我们使用了 ,这是 方法的近似。 首先随机选择一个任务,然后执行SGD来微调该任务。然后在微调参数的方向上采取“元梯度”步骤。下一轮继续执行不其他任务,以产生针对大多数任务的最佳参数只有微小扰动的模型。

确切的说, 的元梯度 被如下定义:

这里 代表随机选择一个任务执行k次随机梯度下降。为了实现快速适应,我们从当前任务以及内存中采样以使用来自整个历史任务的元梯度来执行元更新。然后对当前任务微调元梯度以提升性能。这个过程可以用算法1来展示:

4. 结果

通过将ACE和其他语义分割框架如PSPNet,DeepLab V3+等进行组合,在多个数据集上进行迁移时表现出了良好的精度提升。 从表2可以看出,随着记忆单元记忆的历史图像风格越多,在处理分割新任务时精度提升更加明显。

5. 结论

论文针对语义分割任务提出了一个新的可以自适应多种数据集的语义分割框架ACE,通过记忆单元和存储历史图像的特征向量使得再现历史数据成为可能,有效避免了深度网络的灾难性遗忘问题。 算法组合一些经典的分割网络如PSPNet,DeepLab网络在

数据集上进行迁移时取得了令人信服的结果。 论文还探索了当前大火的元学习,用于ACE快速的适应新任务,对多场景视觉任务有启发意义。

投稿需知

投稿请联系:

邮箱:jiawei@leiphone.com

微信:jiawei1066

点击 阅读原文 ,查看 ICCV顶会交流小组

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章