SAM2Long:用于长视频分割的 SAM 2 免训练增强版

长视频分割涉及将视频分解成若干部分,以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性,但也至关重要。困难在于处理大量的内存需求和计算成本。香港中文大学上海人工智能实验室的研究人员发布了 SAM2LONG,利用免训练记忆机制来增强现有的 Segmented Anything Model 2 (SAM2)。

当前的分割模型(包括 SAM2)使用记忆模型,保留了前几帧的信息。它们具有良好的分割精度,但由于初始分割误差会传播到后续帧,因此难以应对误差累积现象。这种累积问题在具有遮挡和物体重现的复杂场景中尤其严重。SAM2 的多个数据路径集成不良和贪婪选择设计会严重影响长视频性能。此外,对高计算资源的要求使其不适合实际应用。 

SAM2LONG 采用无需训练的记忆树结构,可动态管理长序列而无需大量重新训练。此外,它可同时评估多条分割路径,从而更好地处理分割不确定性并选择最佳结果。它对遮挡的鲁棒性和卓越的跟踪性能源于它在整个视频中保持固定数量的候选分支。

SAM2LONG 方法遵循结构化流程。首先,基于前一帧建立固定数量的分割路径,然后从每帧的现有路径中生成多个候选掩码。根据每个掩码计算反映准确度和可靠性的累积分数,并考虑预测的交并比 (IoU) 和遮挡分数等因素。然后,选择得分最高的分支作为后续帧的新路径。最后,在处理所有帧后,选择累积分数最高的路径作为最终的分割输出。 

SAM2Long:用于长视频分割的 SAM 2 免训练增强版

此过程允许 SAM2Long 利用其启发式搜索设计有效地管理遮挡和物体重现。性能指标表明,SAM2Long 在各种基准测试中平均提高了 3.0 分,在 SA-V 和 LVOS 等具有挑战性的数据集上显著提高了 5.3 分。该方法已在五个 VOS 基准测试中得到严格验证,证明了其在现实场景中的有效性。

简而言之,SAM2Long 通过创新的记忆树结构解决了长视频对象分割中的错误累积问题,从而显著提高了长时间跟踪的准确性。所提出的工作在分割任务中表现出良好的效果,无需训练或额外参数,并且适用于复杂的设置。它看起来很有希望,但必须在现实世界的多样化环境中进一步验证,才能充分得出其适用性和稳健性。总的来说,这项工作代表了视频分割技术向前迈出的重要一步,并为许多依赖于正确对象跟踪的应用程序指明了更好的结果。

项目地址:https://mark12ding.github.io/project/SAM2Long/
GitHub:https://github.com/Mark12Ding/SAM2Long

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53376.html

(0)

相关推荐

发表回复

登录后才能评论