Meta AI 发布 Apollo：用于视频理解的全新 Video-LMM 大型多模态模型系列

虽然多模态模型 (LMM) 在文本和图像任务方面取得了显著进展，但基于视频的模型仍然不够完善。视频本质上很复杂，结合了空间和时间维度，需要更多的计算资源。现有方法通常直接采用基于图像的方法或依赖于均匀的帧采样，这很难捕捉运动和时间模式。此外，训练大规模视频模型的计算成本很高，因此很难有效地探索设计选择。

为了解决这些问题，Meta AI 和斯坦福大学的研究人员开发了Apollo，这是一系列专注于视频的 LMM，旨在突破视频理解的界限。Apollo 通过深思熟虑的设计决策、提高效率以及为时间推理和基于视频的问答等任务设定新基准来解决这些挑战。

Meta AI 推出 Apollo：可扩展视频 LMM 系列

Meta AI 发布 Apollo：用于视频理解的全新 Video-LMM 大型多模态模型系列

Meta AI 的Apollo模型旨在处理长达一小时的视频，同时在关键的视频语言任务中实现出色的性能。Apollo 有三种大小 – 1.5B、3B和7B 参数– 可灵活适应各种计算约束和实际需求。

主要创新包括：

扩展一致性：在较小模型上做出的设计选择可以有效地转移到较大的模型上，从而减少了大规模实验的需要。
每秒帧数 (fps) 采样：与均匀帧采样相比，这是一种更有效的视频采样技术，可确保更好的时间一致性。
双视觉编码器：将用于空间理解的 SigLIP 与用于时间推理的 InternVideo2 相结合，可以实现视频数据的平衡表示。
ApolloBench：精心挑选的基准套件，可减少评估中的冗余，同时提供有关模型性能的详细见解。

技术亮点和优势

Apollo 模型建立在一系列经过充分研究的设计选择之上，旨在克服基于视频的 LMM 的挑战：

每秒帧采样：与均匀帧采样不同，fps 采样保持一致的时间流，使 Apollo 能够更好地理解视频中的运动、速度和事件序列。
扩展一致性：实验表明，在中等规模的模型（2B-4B 参数）上做出的模型设计选择可以很好地推广到更大的模型。这种方法降低了计算成本，同时保持了性能提升。
双视觉编码器：Apollo 使用两个互补的编码器：擅长空间理解的 SigLIP 和增强时间推理的 InternVideo2。它们的结合优势可以产生更准确的视频表示。
标记重采样：通过使用感知器重采样器，Apollo 可以有效减少视频标记而不会丢失信息。这使得模型能够处理长视频而无需过多的计算开销。
优化训练：Apollo 采用三阶段训练流程，首先根据视频数据对视频编码器进行微调，然后再将其与文本和图像数据集集成。这种分阶段的方法可确保稳定有效的学习。
多轮对话：Apollo 模型可以支持基于视频内容的交互式多轮对话，使其成为基于视频的聊天系统或内容分析等应用的理想选择。

性能洞察

Apollo 的能力已通过多个基准测试的强劲结果得到验证，其表现通常优于更大的模型：

阿波罗-1.5B：
- 超越Phi-3.5-Vision（4.2B）和LongVA-7B等型号。
- 分数：Video-MME 上为60.8 ，MLVU 上为63.3， ApolloBench 上为57.0。
阿波罗3B号：
- 与许多 7B 型号竞争并超越它们。
- 分数：Video-MME 上为58.4 ，MLVU 上为68.7， ApolloBench 上为62.7。
- 在 LongVideoBench 上取得55.1 的成绩。
阿波罗7B号：
- 匹配甚至超越Oryx-34B和VILA1.5-40B等参数超过30B的模型。
- 分数：Video-MME 上为61.2 ，MLVU 上为70.9， ApolloBench 上为66.3。