多模态大型语言模型 (MLLM) 在人工智能领域发展迅速,它集成了视觉和语言处理功能,以增强对各种数据类型的理解和交互。这些模型通过将视觉和文本数据处理结合到一个连贯的框架中,在图像识别和自然语言理解等任务中表现出色。这种集成方法使 MLLM 能够在需要多模态输入的任务上表现出色,在自主导航、医学成像和遥感等领域具有重要价值,因为这些领域同时进行视觉和文本数据分析至关重要。
尽管 MLLM 具有诸多优势,但由于计算强度高且参数要求广泛,MLLM 也面临巨大限制,限制了它们在资源受限的设备上的应用。许多 MLLM 依赖于通用训练数据(通常来自互联网来源),这会影响它们在应用于专业领域时的性能。这种对庞大数据集和大规模计算能力的依赖为部署这些模型以完成需要细致入微、特定领域理解的任务带来了巨大障碍。这些挑战在遥感或自动驾驶等领域尤为突出,因为这些领域的适应性至关重要,但又复杂又昂贵。
现有的 MLLM 通常包含 CLIP 等视觉编码器,旨在将视觉数据与语言模型对齐,以形成一个有凝聚力的多模态框架。然而,由于缺乏跨领域的全面视觉知识,这些模型在专业领域中经常会遇到限制。大多数当前的 MLLM 使用与大型语言模型对齐的预训练视觉编码器,当应用于不同领域时,需要对其架构和训练计划进行大量调整。这个过程虽然有效,但效率低下,并且使得在较小的设备上部署这些模型具有挑战性,因为它们对互联网域数据的依赖限制了它们无缝适应特定领域任务的能力,而无需进行大量重新配置。
上海人工智能实验室、清华大学、南京大学、复旦大学、香港中文大学、商汤研究院和上海交通大学的研究人员推出了 Mini-InternVL,这是一系列轻量级 MLLM,其参数范围从 1B 到 4B,可在各个领域提供高效的多模态理解。Mini-InternVL 力求仅使用 5% 的参数来保持大型多模态模型 90% 的性能,使其既节省资源又可在消费级设备上使用。研究团队将 Mini-InternVL 设计为一种袖珍解决方案,可适用于自动驾驶、医学成像和遥感等任务,同时提供比传统 MLLM 更低的计算开销。通过创建统一的适应框架,Mini-InternVL 支持跨领域的有效模型迁移,从而提高跨专业领域的可访问性和适用性。
Mini-InternVL 采用了一种名为 InternViT-300M 的稳健视觉编码器,该编码器是从更大的 InternViT-6B 模型中提炼出来的。该视觉编码器增强了模型的表示能力,从而可以实现有效的跨域传输,同时减少资源需求。Mini-InternVL 系列包含三种模型变体:Mini-InternVL-1B、Mini-InternVL-2B 和 Mini-InternVL-4B,参数数量分别为 10 亿、20 亿和 40 亿。每个变体都连接到预先训练的语言模型,如 Qwen2-0.5B、InternLM2-1.8B 和 Phi-3-Mini,从而可以灵活部署。
训练分为两个阶段:
- 首先,通过语言-图像对齐,其中模型在各种任务的大量数据集上进行预训练,确保视觉和文本元素的稳健对齐。
- 其次,该模型经过视觉指令调整,涉及针对多模态任务(例如图像字幕、图表解释和视觉问答)的数据集进行训练。
这种多阶段训练中的各种任务增强了 Mini-InternVL 在现实场景中的适应性和性能。
Mini-InternVL 在各种多模态基准测试中表现出色,仅使用 5% 的参数即可实现 InternVL2-Llama3-76B 等大型模型高达 90% 的性能。具体而言,Mini-InternVL-4B 在通用多模态基准测试中表现良好,在 MMBench 上得分为 78.9,在 ChartQA 上得分为 81.5,这两项都是视觉语言任务的重要基准测试。该模型在特定领域任务中也表现出色,在准确度和效率方面与某些专有模型相当甚至优于它们。例如,在自动驾驶领域,Mini-InternVL-4B 的准确度得分与使用更多资源的模型相当。
此外,Mini-InternVL 模型在医学成像和遥感方面表现出色,只需进行少量微调即可展示出强大的泛化能力。 Mini-InternVL-4B 模型在多个基准测试中获得了 72.8 的最终平均分数,突显了其作为轻量级、高性能模型的实力,能够在没有过多资源需求的情况下跨专业领域无缝转移。
研究人员通过引入 Mini-InternVL 成功解决了多模态模型部署中的高计算障碍。该模型表明,高效的架构和训练方法可以实现具有竞争力的性能水平,同时显著降低资源需求。通过采用统一的自适应框架和强大的视觉编码器,Mini-InternVL 为资源有限环境中的专业应用提供了可扩展的解决方案,提高了多模态大型语言模型在专业领域的实际适用性。
查看论文:https://huggingface.co/OpenGVLab/InternVL2-2B。
本研究的所有功劳都归于该项目的研究人员。本文仅作分享。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53437.html