大型语言模型 (LLM) 主要用于基于文本的任务,这限制了它们解释和生成多模态内容(例如图像、视频和音频)的能力。传统上,多模态操作是针对大量标记数据进行训练的任务特定模型,这使得它们资源消耗大且僵化。零样本方法还仅限于使用成对的多模态数据集进行预训练,这限制了它们对新任务的灵活性。挑战在于让 LLM 在没有任务特定训练、精选数据或模型自适应的情况下执行多模态推理和生成。克服这一挑战将大大增强 LLM 在跨多个领域动态处理和生成多模态内容的适用性。
传统的多模态 AI 系统基于 CLIP 等模型(用于图像文本对齐)或扩散模型(用于媒体生成)。然而,这些方法仅限于对精选数据进行大量训练。ZeroCap 和 MeaCap 等零样本字幕模型试图克服这个问题,但仍然局限于固定架构和基于梯度的优化,从而限制了它们在不同模态中的泛化能力。这些方法有三个限制:它们仅限于大量标记数据,它们无法在训练分布之外进行泛化,并且它们基于基于梯度的方法,这限制了它们对新任务的灵活性。如果不克服这些限制,多模态 AI 就仅限于固定任务和数据集,从而限制了其进一步应用的潜力。
Meta 的研究人员提出了 MILS(多模态迭代 LLM 求解器),这是一种测试时优化框架,可增强 LLM 的多模态推理能力,而无需额外训练。MILS 不会调整 LLM 或在多模态数据上对其进行重新训练,而是使用带有 GENERATOR 和 SCORER 的迭代优化循环。GENERATOR 是一种 LLM,可为图像标题、视频描述或风格化图像提示等多模态任务生成候选解决方案,而 SCORER 是一种预先训练的多模态模型,可按相关性、连贯性和与输入数据的一致性对生成的解决方案进行排序。MILS 在两者之间交替进行,通过实时反馈反复优化其输出,不断提高性能。这实现了跨多种模态(包括文本、图像、视频和音频)的零样本泛化,使其成为多模态 AI 应用的极其通用的解决方案。
![Meta AI 推出 MILS:一种无需训练的多模态 AI 框架,用于零样本图像、视频和音频理解](https://www.nxrte.com/wp-content/themes/justnews/themer/assets/images/lazy.png)
MILS 是一种无梯度优化方法,采用预先训练的模型而无需调整其参数。该框架已用于各种多模态任务。对于图像字幕,MILS 使用 Llama 3.1 8B 作为 GENERATOR,使用基于 CLIP 的模型作为 SCORER,以迭代方式查找最佳字幕,直到生成最准确、最具描述性的字幕。视频帧也采用相同的迭代过程,使用 ViCLIP 进行评估;对于音频字幕,MILS 使用 ImageBind 作为 SCORER,将该过程扩展到音频数据,使 LLM 能够生成声音的自然语言描述。对于文本到图像的生成,MILS 通过在将文本描述发送到基于扩散的模型之前对其进行优化来优化图像生成提示,从而生成更多高质量图像。该框架甚至扩展到风格转换,生成优化的编辑提示,指导风格转换模型生成更视觉一致的转换。此外,它还提出了跨模态算法,将音频字幕和图像描述等异构模态组合成一个多模态表示。使用预训练模型作为评分函数,MILS 可以避免显式多模态训练,同时与任务无关。
![Meta AI 推出 MILS:一种无需训练的多模态 AI 框架,用于零样本图像、视频和音频理解](https://www.nxrte.com/wp-content/themes/justnews/themer/assets/images/lazy.png)
MILS 在各种多模态任务上实现了强大的零样本性能,并且在字幕和生成方面均优于以前的工作。对于图像字幕,它在语义上比以前的零样本模型更准确,并且生成更自然、更具信息量的字幕。对于视频和音频字幕,即使没有进行任何特定任务的训练,它的表现也优于在大规模数据集上训练的模型。对于文本到图像的生成,MILS 提高了图像质量和保真度,而且在绝大多数情况下,人类评估者更喜欢其合成图像。MILS 对风格转换也很有效,可以学习最佳提示以实现更好的视觉转换。
最后,MILS 实现了新的跨模态算术特征,允许结合来自模态的信息来生成连贯的输出。这些发现证明了 MILS 的灵活性和效率,使其成为基于精心策划的训练数据的多模态 AI 系统的突破性替代方案。
![Meta AI 推出 MILS:一种无需训练的多模态 AI 框架,用于零样本图像、视频和音频理解](https://www.nxrte.com/wp-content/themes/justnews/themer/assets/images/lazy.png)
MILS 为多模态 AI 提供了一种新范式,它能够让 LLM 生成和处理文本、图像、视频和音频内容,而无需训练和微调。其测试时迭代优化机制允许出现零样本泛化,优于以前的零样本方法,但保持简单。MILS 在自适应反馈中使用预先训练的 LLM 和多模态模型,为多模态 AI 创造了一种新的先进技术,允许更具自适应性和可扩展性的 AI 系统动态处理多模态推理和生成任务。
论文地址:https://github.com/facebookresearch/mils
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/55616.html