多模态大型语言模型(MLLM) 彻底改变了各种图像和视频相关任务,包括视觉问答、叙事生成和交互式编辑。该领域的一个关键挑战是实现细粒度的视频内容理解,这涉及像素级分割、使用语言描述进行跟踪以及对特定视频提示执行视觉问答。虽然最先进的视频感知模型在分割和跟踪等任务上表现出色,但它们缺乏开放式语言理解和对话能力。此外,视频 MLLM 在视频理解和问答方面表现出色,但在处理感知任务和视觉提示方面却有所欠缺。
目前,解决视频理解挑战的尝试主要有两种方法:MLLM 和引用分割系统。MLLM 最初专注于开发改进的多模态融合方法和特征提取器,最终发展为使用 LLaVA 等框架对 LLM 进行指令调整。最近的发展试图将图像、视频和多图像分析统一到单个框架中,例如 LLaVA-OneVision。与此同时,引用分割系统已经从基本的融合模块发展到基于转换器的方法,将分割和跟踪集成到视频中。然而,这些解决方案缺乏对感知和语言理解能力的全面整合。
来自加州大学默塞德分校、Bytedance Seed、武汉大学和北京大学的研究人员提出了 Sa2VA,这是一种突破性的统一模型,旨在对图像和视频进行密集的扎实理解。该模型通过最少的一次性指令调整支持广泛的图像和视频任务,从而克服了现有多模态大型语言模型的局限性,从而脱颖而出。Sa2VA 的创新方法将 SAM-2 与 LLaVA 集成,将文本、图像和视频统一到共享的 LLM 标记空间中。研究人员还推出了 Ref-SAV,这是一个广泛的自动标记数据集,包含复杂视频场景中的 72K 多个对象表达,以及 2K 个手动验证的视频对象,以确保强大的基准测试能力。
Sa2VA 的架构集成了两个主要组件:类似 LLaVA 的模型和 SAM-2,通过新颖的解耦设计连接。类似 LLaVA 的组件由处理图像和视频的视觉编码器、视觉投影层和用于文本标记预测的 LLM 组成。该系统采用独特的解耦方法,其中 SAM-2 与预训练的 LLaVA 模型一起运行,无需直接交换标记,从而保持计算效率并实现与各种预训练的 MLLM 的即插即用功能。关键创新在于使用特殊“[SEG]”标记的连接机制,允许 SAM-2 生成分割掩码,同时通过“[SEG]”标记实现梯度反向传播,以优化 MLLM 的提示生成能力。
Sa2VA 模型在指涉分割任务上取得了最佳结果,Sa2VA-8B 在 RefCOCO、RefCOCO+ 和 RefCOCOg 上的 cIoU 得分分别为 81.6、76.2 和 78.9,优于 GLaMM-7B 等之前的系统。在对话能力方面,Sa2VA 表现出色,在 MME 上的得分为 2128,在 MMbench 上的得分为 81.6,在 SEED-Bench 上的得分为 75.1。该模型在视频基准测试中表现出色,在 MeVIS、RefDAVIS17 和 ReVOS 上远远超过了之前最先进的 VISA-13B。此外,考虑到与竞争对手相比,Sa2VA 的模型尺寸较小,其性能值得关注,显示出其在图像和视频理解任务中的效率和有效性。
在本文中,研究人员介绍了 Sa2VA,它成功地将 SAM-2 的视频分割功能与 LLaVA 的语言处理能力相结合,代表了多模态理解的重大进步。该框架的多功能性体现在其能够以最少的一次性指令调整处理各种图像和视频理解任务,解决了将感知与语言理解相结合的长期挑战。Sa2VA 在从指涉分割到对话任务的多个基准测试中表现出色,证明了其作为密集、扎实的视觉内容理解统一解决方案的有效性,标志着多模态 AI 系统领域向前迈出了重要一步。
更多详细信息请查看:https://huggingface.co/collections/ByteDance/sa2va-model-zoo-677e3084d71b5f108d00e093
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55246.html