多模态大型语言模型最重要、最先进的功能之一是长上下文视频建模,它允许模型处理长达数小时的电影、纪录片和直播。然而,尽管 LLM 在视频理解(包括字幕生成和问题解答)方面取得了值得称道的进步,但在处理超长视频时仍存在许多障碍。其中最关键的是理解长视频带来的语境。
尽管该领域已经开展了大量工作,从对大量文本和框架语料库进行训练,到构建具有长上下文并行性和数据打包的有效训练系统,但这些超长多模态上下文显著降低了模型的训练和推理效率。此外,框架引入的冗余进一步使模型学习复杂化。该领域一个有趣的方向是视频标记的压缩,它显示出巨大的潜力,但在细节表示方面存在权衡。本文介绍了一种用于长上下文多模态建模的新压缩方法的最新研究。
深圳先进技术研究院的研究人员提出了一种分层视频标记压缩方法 (HiCo),该方法具有实用的上下文建模系统 VideoChat-Flash,专为处理长上下文视频而设计。HiCo 通过将扩展上下文从剪辑压缩到视频级别来解决视频信息中的视觉冗余问题,以最大限度地减少计算量,同时保留所有关键数据。另一方面,VideoChat-Flash 具有多阶段短到长学习方案以及丰富的真实长视频数据集。它是对 MLLM 的充分长视频理解,具有支持高阶序列并行性的训练基础设施。
HiCo 分层压缩 token,以获得高密度 token 表示并扩大上下文窗口。作者将长视频按顺序分割成较短的片段,并将它们输入到 MLLM 中。压缩基于时空冗余。HiCo 进一步将压缩后的 token 与用户查询联系起来,并利用片段与真实世界嵌入之间的语义相关性来减少 token 数量。
接下来,在采用多阶段短到长学习方案和相应数据接收的 VideoChat-Flash 中,作者开始使用短视频和相关字幕和问答进行监督微调,逐渐转向长视频,最终在混合长度的语料库上进行训练。事实证明,短视频在增强基本视觉感知和简洁表达长视频方面非常有效。作者提供了一个庞大的微调数据集,涵盖 300,000 小时的视频,注释涵盖 20 亿个单词。
论文中提出的另一项创新是针对多跳视频配置的改进版“大海捞针”(NIAH)任务。传统上,NIAH 任务通过要求模型定位指示图像、找到目标词或回答视频中的问题来评估模型。在这里,目标图像通常插入视频帧中,模型可以通过视觉区分识别它而无需理解上下文。为了解决这个漏洞,作者提出了一个新的基准“视频大海捞针多跳”,它要求模型定位一系列相互连接的指示性图像,其中后续图像只能使用第一幅图像中的线索找到。
所提出的方法在实验中实现了高达两个数量级的计算量减少。尤其是 VideoChat-Flash,在 2B 和 7B 规模的主流短视频和长视频基准测试中都表现出色。作者超越了 7B 规模模型的所有其他方法,宣称它是短视频理解领域的新前沿。即使在长视频理解方面,他们的模型也优于之前的开源 MLLM,在多个基准测试中实现了 SOTA。所提出的模型还表现出强大的时间基础能力,零样本性能超过了许多知名的 MLLM。此外,VideoChat-Flash 在 NIAH 中对超过 10,000 帧的准确率达到了惊人的 99.1%。
小结:作者介绍了一种分层压缩技术 HiCo 和 VideoChat-Flash,这是一种使用创新多阶段方案训练的 MLLM。该方法改进了压缩技术,以减少长上下文视频的计算量,同时超越了当前 SOTA 模型的准确度。
论文地址:https://arxiv.org/abs/2501.00574
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55408.html