提画质、插广告、荐视频,“马栏山”杯国际音视频算法大赛怎么拿高分?这里有三大赛题攻略

我们先来玩一个「大家来找茬」的游戏,看看下边这两幅图有哪里不一样。

很明显,电视里播放的内容变了,由左边的电视剧变成了右边的广告。但如果只看右边这个画面,我们可能很难察觉有人在电视上「动了手脚」。

这就是当前流行的视频动态广告技术,它基于视频特定点位跟踪,能够将广告视觉元素自然而精准地融合到原视频中,达到以假乱真的效果。

和换脸一样,视频特定点位跟踪也属于 AI 的范畴,而且是「马栏山」杯国际音视频算法大赛的赛题之一。除此之外,参赛者还可以选择视频推荐和画质损伤修复赛道。

看到这里,有人可能要说,「就这?我也能做!」如果你也这么想,为什么不报名参赛呢?

截至今日,首届「马栏山」杯国际音视频算法大赛参赛队伍已破千。

参赛队伍来自国内外知名高校与企业,包括麻省理工学院、卡内基梅隆大学、东京大学、早稻田大学、帝国理工学院以及清华、北大等著名院校,以及诸多业内知名企业。

其中,北京大学、清华大学、电子科技大学、北京邮电大学、中南大学、中国科学院大学等都有数十支队伍参赛。 

机器之心了解到,目前排在前 15 名的队伍来,90 后占据主力(约 84.6%),其次是 80 后(约 14.6%),但也出现了 00 后的身影。所以,无论你来自何方,年龄几何,都可以前来 PK。

想得高分?看这里

此次算法大赛聚焦图像、推荐、画质优化三大领域,设置了包括视频特定点位追踪、视频推荐、画质损伤修复三大赛题。从大赛官网的排行榜来看,每个榜单都还有提升的空间。为了帮助大家取得更好的成绩,机器之心为大家梳理一下每个赛题的题目要求和解题思路。

赛题一:视频特定点位跟踪

视频特定点位跟踪技术常用于视频动态广告植入,如文章开头的动图所示。如果技术足够成熟,观众可能都察觉不到视频中夹杂着广告,也就不会对广告植入产生排斥心理。因此,这种方式可以提升视频平台的变现能力。

但要做出这种「以假乱真」的效果并不容易,算法设计者需要考虑光影、景深、遮挡等各种因素。在此题中,大赛主办方给出了视频片段数据,参赛者需要以此为基础来设计一种有效的植入方案,使得广告自然而然地融入到原始视频中,不对观众产生干扰。

需要强调的是,这道赛题最主要的难点在于如何定位与跟踪。

在跟踪方面,机器之心建议参考深度学习中的视频跟踪类算法,如 SiamMask、SLAM 算法等。

在 SiamMask 中,研究者展示了如何在统一框架下,实时执行视觉追踪与半监督目标分割。在训练完成后,SiamMask 只依赖一个初始化的边界框,就能实时生成未知类别的目标分割掩码,并以每秒 55 帧的速率实时更新掩码。

论文地址: https://arxiv.org/pdf/1812.05050.pdf

SiamMask 的实时分割与追踪效果。

去年 9 月,约克大学的研究者又在 SiamMask 的基础上进行了改进,提出了 SiamMask E,将帧率提高到了 80。

论文地址: https://arxiv.org/pdf/1907.03892.pdf

项目地址: https://github.com/baoxinchen/siammask_e

在视频目标分割方面,大家可以参考悉尼大学等机构的研究者提出的 RANet。

论文地址: https://arxiv.org/pdf/1908.06647.pdf

代码地址: https://github.com/Storife/RANet

另外,大赛出题方还为大家提供了该赛道的官方 demo: https://github.com/MgtvAi/PointsTrackDemo

赛题二:视频推荐

视频推荐也是平台变现的关键一环。好的视频推荐可以让客户停留更长的时间,对平台的依赖程度也会随之增加,是各大视频平台的主战场之一。

该赛题的原型就来自芒果 TV 真实的场景需求。出题方包装了一个经典的 TopN 推荐问题,还提供完备的特征信息,能够真实地反映实际业务中多模态数据的特性。

这一赛题的难点主要分为四个方面:特征工程、模型选取、训练方式和参数调优,这里仅简单梳理一下前两点。

特征工程包括特征提取、特征清洗等步骤。特征提取旨在提取到更丰富、粒度更细、更有表达性的特征,实现方式包括交叉组合、行为特征挖掘、统计过去一段时间内点击与未点击的比率等。特征清洗包括补全、归一化、去噪声等,可以尝试去除离散点、数据归一化等方法。

机器之心也为大家找到了一些可以参考文章:

https://zhuanlan.zhihu.com/p/52202704

https://zhuanlan.zhihu.com/p/23356953

https://zhuanlan.zhihu.com/p/40133477

在模型选取方面,大家可以选择以梯度提升决策树(GBDT)为代表的传统方式,也可以选取以 DeepFM、DSTN、DIN、DIEN 等为代表的深度学习模型。

该赛道官方 demo: https://github.com/MgtvAi/CompetitionRcDemo

赛题三:画质损伤修复

我们在电视、网络上看到的视频往往要经过拍摄、后期、导出、编码压缩等一系列复杂过程。在这一过程中,摄像机噪声、编码压缩振铃效应、编码压缩块现象、编码压缩细节丢失等问题都会对视频的画质形成严峻挑战。因此,在此赛题中,参赛者要对画质受到损伤的视频提出有效的修复方案,将低画质视频恢复为高画质视频。要想做到这一点,参赛者需要解决噪声、压缩振铃效应、块效应、细节缺失四类复合问题。

与该赛题有较高相关性的经典网络是 ARCNN,由香港中文大学的 Chao Dong 发表于 2015 年。这个网络主要有四个步骤,分别为特征提取、特征增强、映射、重构。除了特征增强层,其余部分和另外一个经典网络 SRCNN 是一样的。前两层可以看做一个更强的特征提取层,学习过程用 SGD 下降,然后用 MSE 做损失函数。

ARCNN 架构。

论文链接: https://arxiv.org/abs/1504.06993

参加这个比赛会有哪些收获?

如果你参加过 Kaggle 比赛,想必你对数据竞赛能够带来的收获有着非常直观的体验,比如现金奖励、实战经验、团队合作经验…… 这些,你在此次大赛都有机会获得,而且还有机会获取一份特殊 offer。

首先来看一下奖励。每道赛题排名 Top10 的队伍(如果分数排名相同,取提交时间优先的队伍)都将获得「团队奖励大礼包」:

  • 视频特定点位跟踪赛题:第一名 32 万元、第二名 8 万元、第三名 3 万元、第四 - 第十名分别获得 7000 元以及对应证书;

  • 视频推荐赛题:第一名 24 万元、第二名 6 万元、第三名 2.5 万元、第四 - 第十名分别获得 5000 元以及对应证书;

  • 画质损伤修复赛题:第一名 24 万元、第二名 6 万元、第三名 2.5 万元、第四 - 第十名分别获得 5000 元以及对应证书。

其次是实战经验。大赛赛题均来自视频产业的真实需求,以视频业实际业务需求为基础,还原了业务场景需求,直击产业痛点难题。参与比赛,选手不仅可以深入学习和提升自己的算法技能,还能更多实践人工智能在视频行业的实际应用,累积行业实践经验与加强工程落地能力。而且,优秀的算法模型将有可能直接被应用到芒果 TV 的实际业务中。

然后是团队合作经验。该大赛要求参赛者以个人或者不超过三人的战队形式参赛,可自由组建队伍。参赛者能够与来自全球最优秀的 AI 高手交流竞技。

最后,在这场比赛中获得好成绩的在校学生还有机会加入芒果 TV「青芒计划」,获得「Special Offer」。

「青芒计划」是由芒果 TV 推出的面向海内外高等院校应届优秀毕业生的芒果新人培养计划。在该竞赛中,每道赛题竞赛结果前五名将获得青芒直通卡;第六名到第十名则可以获得青芒面试直通卡,拥有「VIP」面试权限。

现在距离比赛结束还有一段时间,看完此攻略想要加入的同学可继续报名。

点击「阅读原文」,参与报名。

我来评几句
登录后评论

已发表评论数()

相关站点

+订阅
热门文章