爱奇艺多模态人物识别挑战赛TOP3团队经验分享:明确目标,奋力前行

一、团队介绍

“一个名字”团队由来自南京大学R&L实验室的四位成员——董传奇、顾峥、黄中豪以及季雯组成,指导老师为霍静。在比赛过程中,成员间互相交流,在github上共同协作,最终取得0.8986的成果,排名第三。其代码现已在github上进行开源,开源地址为https://github.com/LegenDong/IQIYI VID FACE_2019。

二、团队方案

iQIYI多模态挑战赛是一个针对视频中人物所展开的检索任务,需从视频数据集中检索到和每一个类别相对应的视频片段,为了评估检索的性能,iQIYI官方使用了平均精度(MAP)作为评估方式,如下所示。

iQIYI多模态数据集中总共有将近20W视频片段,由10034位人物组成,在每一段视频中只有一个主要人物,同时官方提供了人脸特征、头部特征、身体特征以及语音特征,但是官方提取的特征并没有进行对齐以及fine-tune等操作。

我们最开始希望可以重新提取在挑战赛中最重要的人脸特征,但是由于这次比赛的测试过程需要在官方提供的docker环境中完成,如果重新进行人脸的对齐与特征提取,时间成本过高,因此在最终的方案中我们使用了官方提供的 人脸特征 ,同时在时间成本可以接受的前提下提取了 场景特征 作为辅助。

该团队的方案主要可以分为三部分,包括视频特征融合模块、多模态特征融合模块以及最终的模型集成模块,下面对这三部分分别进行详细的介绍。

1、视频特征融合

由于视频中存在一定的噪音,该团队参考了DANet中的Channel Attention设计其模块的第一部分,这个模块通过度量不同帧特征之间的相似性,达到增强相似特征、抑制离群特征的作用,其网络结构如下:

在等到了新的特征后,如何从多帧中得到有效的表示的问题亟待解决,于是参考了NAN网络中的设计,使用CNN提取视频中多帧人像的特征,之后使用聚合模块对所有帧的特征向量进行学习累积,其结构如下图所示。实验结果表明,这种方法优于质量分数加权平均等手工设计的方法。

在损失方面,该团队将Additive Angular Margin Loss和Focal Loss结合起来作为损失计算方式,但由于Additive Angular Margin Loss的过程中会将特征进行归一化,特征会失去自己的模长信息,而模长信息又与质量分数紧密相关。因此,该团队采取将分数信息与归一化后的特征进行再拼接,从而再次引入这一部分信息的方案。

2、多模态特征融合

人脸、头部等特征在低质量视频中的效果都比较差,因此该团队提取了场景特征进行辅助判断。其基本模型是SE-ResNeXt,在ResNet的基础上增大了基数,并引入了注意力机制。在训练过程中,每一段视频采样一帧,使用余弦退火算法训练20个epoch。在测试过程中,也同样对每一段视频采样一帧,以此作为视频特征。

得到了上述的场景特征后,将这个特征降维至128维,然后和视频人脸特征拼接起来,通过三层感知机得到最终的结果,如下图所示:

3、模型集成

模型集成是竞赛中常见的方法之一。由于在数据集中,许多视频仅仅只有一两段视频,使用Bagging会造成大量的ID缺失,平均90%采样会造成160个ID的缺失。

在协同训练中,如果不同的特征可以对同一事物进行多角度的描述,那么就有可能集成针对不同特征的弱分类器而得到一个更强的分类器。而由于深度特征往往都是冗余的,这就意味着即使丢弃特征中的某些维度的数值,特征仍有一定的判别性。因此,可以在特征的层面上对数据集进行分割。比如下图中白色的部分就是舍弃的特征,绿色的部分则是选择的特征子集,然后使用得到的特征子集分别训练一个子模型,集成得到最终的模型。

对于没有人脸的视频,使用场景的预测结果作为最终的预测结果;而对于质量分数最低的1%的视频,则将多模态预测结果和场景预测结果进行加权,得到最终结果。

三、经验总结

对于参赛者而言,首要工作是明确任务,才能更好地开展后续工作;其次,对于数据的分析亦非常重要,没有对数据的充分分析,就无从知晓应该引入什么样的方法;快速并且高质量地实现想法在竞赛中更是不可或缺的。

在比赛的前期,团队应该更加注意数据集的理解和新方法的探索,而不要过早沉溺于调参和寻找trick,否则到了比赛后期,时间紧张,一个好的想法往往来不及实现或进行更多的调试。

四、参考文献

[1] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A large-scale hierarchical image database. In 2009 IEEE conference on computer vision and pattern recognition, pages 248–255. Ieee, 2009.

[2] J. Deng, J. Guo, N. Xue, and S. Zafeiriou. Arcface: Additive angular margin loss for deep face recognition. arXiv preprint arXiv:1801.07698, 2018.

[3] J. Fu, J. Liu, H. Tian, Z. Fang, and H. Lu. Dual attention network for scene segmentation. arXiv preprint arXiv:1809.02983, 2018.

[4] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016.

[5] J. Hu, L. Shen, and G. Sun. Squeeze-and-excitation networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7132–7141, 2018.

[6] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollár. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017.

[7] I. Loshchilov and F. Hutter. Sgdr: Stochastic gradient descent with warm restarts. arXiv preprint arXiv:1608.03983, 2016.

[8] J. Yang, P. Ren, D. Zhang, D. Chen, F. Wen, H. Li, and G. Hua. Neural aggregation network for video face recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4362–4371, 2017.

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章