VITA-1.5：多模态大语言模型，通过三阶段训练方法整合视觉、语言和语音

AIGC • 2025年1月7日下午2:31 • 技术文章

多模态大型语言模型 (MLLM) 的发展为人工智能带来了新的机遇。然而，在整合视觉、语言和语音模态方面仍然存在重大挑战。虽然许多 MLLM 在视觉和文本方面表现良好，但整合语音仍然是一个障碍。语音是人类互动的自然媒介，在对话系统中起着至关重要的作用，但模态之间的差异——空间与时间数据表示——在训练过程中会产生冲突。传统的系统依赖于单独的自动语音识别 (ASR) 和文本转语音 (TTS) 模块，通常速度很慢，不适用于实时应用。

来自南京大学、腾讯优图实验室、厦门大学和中国科学院人工智能研究所的研究人员推出了 VITA-1.5，这是一种多模态大型语言模型，通过精心设计的三阶段训练方法将视觉、语言和语音融为一体。与依赖外部 TTS 模块的前身 VITA-1.0 不同，VITA-1.5 采用端到端框架，减少了延迟并简化了交互。该模型结合了视觉和语音编码器以及语音解码器，可实现近乎实时的交互。通过渐进式多模态训练，它解决了模态之间的冲突，同时保持了性能。研究人员还公开了训练和推理代码，促进了该领域的创新。

技术细节和优势

VITA-1.5 旨在平衡效率和能力。它使用视觉和音频编码器，对图像输入采用动态修补，对音频采用下采样技术。语音解码器结合了非自回归 (NAR) 和自回归 (AR) 方法，以确保流畅且高质量的语音生成。训练过程分为三个阶段：

视觉语言训练：此阶段侧重于视觉对齐和理解，使用描述性标题和视觉问答 (QA) 任务来建立视觉和语言模式之间的联系。
音频输入调整：音频编码器使用语音转录数据与语言模型对齐，从而实现有效的音频输入处理。
音频输出调整：语音解码器使用文本-语音配对数据进行训练，实现连贯的语音输出和无缝的语音到语音交互。

这些策略有效地解决了模态冲突，使 VITA-1.5 能够无缝处理图像、视频和语音数据。集成方法增强了实时可用性，消除了传统系统中常见的瓶颈。

结果和见解

VITA-1.5 在各种基准测试中的评估证明了其强大的功能。该模型在图像和视频理解任务中表现出色，取得了与领先的开源模型相当的结果。例如，在 MMBench 和 MMStar 等基准测试中，VITA-1.5 的视觉语言能力与 GPT-4V 等专有模型相当。此外，它在语音任务中表现出色，普通话字符错误率 (CER) 较低，英语单词错误率 (WER) 较低。重要的是，加入音频处理不会损害其视觉推理能力。该模型在各种模态中的一致性能凸显了其实际应用的潜力。

结论

VITA-1.5 代表了一种解决多模态集成挑战的深思熟虑的方法。通过解决视觉、语言和语音模态之间的冲突，它为实时交互提供了一种连贯而有效的解决方案。它的开源可用性确保研究人员和开发人员可以在其基础上继续发展，推动多模态 AI 领域的发展。VITA-1.5 不仅增强了当前的能力，还为 AI 系统指明了更加集成和互动的未来。

GitHub地址：https://github.com/VITA-MLLM/VITA

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/55124.html