解放特效师!南科大研发黑科技模型,可一键消除视频人物
这款视频分割模型来自南方科技大学,能够对视频中的任何事物进行追踪。不仅可以“看”,还可以“剪”,轻松地从视频中移除个人,只需要轻点几下鼠标即可。

一位特效艺术家看到这个消息后,感到如获至宝,认为这一产品将改变CGI行业的规则。

该模型名为TAM(Track Anything Model),是SAM的视频扩展,使动态物体追踪成为可能。

虽然视频分割模型不是新技术,但传统的分割模型普遍没有简化人类的工作量。这些模型所使用的训练数据必须完全由人工标注,甚至在使用时还必须先通过特定物体的遮罩参数进行初始化。SAM的出现为解决这个问题奠定了基础——至少在初始化数据方面,不再需要人工获取。
当然,TAM并不是简单地通过逐帧使用SAM来叠加模型,还需要建立相应的时空关系。该团队将SAM与名为XMem的记忆模块进行了整合。只需在第一帧中使用SAM生成初始参数,XMem便可以指导接下来的追踪过程。目标的追踪数量也可以很多,比如下面的“清明上河图”等。

即使场景发生变化,TAM的性能也不会受影响。

我们使用过后,发现TAM采用交互式用户界面,操作十分简单易用。

在硬性能方面,TAM的追踪效果非常不错。

但是,移除功能在一些细节方面的精确度还有待提高。

TAM 与 SAM 的关系
如前文所述,TAM是在SAM的基础之上,结合记忆能力建立时空关联实现的。第一步是利用SAM的静态图像分割能力对模型进行初始化。只需点击一次,SAM就能生成目标物体的初始化遮罩参数,代替了传统分割模型中繁琐的初始化过程。有了初始参数,团队可以交给XMem进行半人工干预训练,从而大大减少了人类工作量。

在这个过程中,会有一些人工预测结果被用来和XMem的输出进行比较。随着时间的增加,得到准确的分割结果对XMem变得越来越困难。当结果与预期相差过大时,会进入再分割环节,这一步还是需要由SAM完成。经过SAM的再优化,大多数输出结果已经比较准确,但还有一部分需要人工进一步调整。
至于TAM的训练过程,上述便是大致步骤。而物体消除技能则是TAM与E2FGVI相结合的成果。E2FGVI本身也是一个视频元素消除工具,但在TAM的精准分割帮助下,其工作更加有针对性。
为了测试TAM的性能,团队使用DAVIS-16和DAVIS-17数据集对其进行了评估。从直观感受和数值结果来看,TAM的表现都很不错。

尽管TAM无需手动设置遮罩参数,但其J(区域相似度)和F(边界准确度)指标已经十分接近手动模型了。在DAVIS-2017数据集中的表现甚至略好于其中的STM。相比其他初始化方式,SiamMask根本无法与TAM相提并论;而MiVOS表现虽然好于TAM,但已经经历了8次进化,不具有可比性。

TAM 来自哪里
TAM的研发团队来自南方科技大学视觉智能与感知实验室。该实验室的研究方向涵盖文本-图像-声音多模型学习、多模型感知、强化学习和视觉缺陷检测等。团队已发表论文30余篇,并获得了5项专利。
该实验室的领导人是南方科技大学郑锋副教授,他在英国谢菲尔德大学获得博士学位,曾供职于中科院深研院、腾讯优图等机构。他于2018年加入南方科技大学,并于2021年晋升为副教授。
参考链接:
[1]Github页面:https://github.com/gaomingqi/Track-Anything [2]论文地址:https://arxiv.org/abs/2304.11968 [3]https://twitter.com/bilawalsidhu/status/1650710123399233536