幻觉仍然是部署大型视觉语言模型 (LVLM) 的一大挑战,因为这些模型通常会生成与视觉输入不一致的文本。与 LLM 中因语言不一致而产生的幻觉不同,LVLM 难以应对跨模态差异,导致图像描述不准确或空间关系不正确。这些模型利用视觉编码器(例如 CLIP)以及预训练的文本解码器将视觉信息映射到语言中。
尽管 LVLM 在图像字幕、视觉问答和医疗治疗计划等任务中表现出色,但它们仍然容易产生幻觉,这限制了它们在现实世界中的适用性。这个问题源于各种因素,包括预训练中的统计偏差、对语言先验的过度依赖以及特征学习偏差。然而,现有研究往往未能解释 LVLM 的独特架构,尽管视觉输入处理具有独特的作用,但其幻觉机制与 LLM 中的幻觉机制类似。
为了减轻 LVLM 中的幻觉,研究人员探索了基于训练和无需训练的方法。基于训练的解决方案侧重于通过额外的监督来增强模型与基本事实的一致性,但它们需要大量数据集和计算资源。相比之下,无需训练的方法(例如自反馈校正和辅助模型集成)因其效率而广受欢迎。一些方法改进了文本解码过程以减少不一致性,但这些方法通常无法解决视觉编码器的幻觉问题。随着 LVLM 的发展,开发考虑视觉和文本组件的针对性解决方案对于提高其在实际应用中的稳健性和可靠性至关重要。
斯坦福大学的研究人员研究了 LVLM 中幻觉背后的机制,重点研究了视觉编码器的不稳定性及其对文本解码器的影响。他们引入了视觉和文本干预 (VTI),这是一种通过修改潜在空间表示来稳定视觉特征的测试时间技术。与传统的平滑方法不同,VTI 会预先计算受扰图像的变换方向并将其应用于新查询,从而无需额外的训练成本即可减少幻觉。实验结果表明,VTI 在多个基准测试中始终优于基线方法,强调了视觉特征稳定性在减轻幻觉和提高 LVLM 可靠性方面的重要性。
LVLM 包含一个视觉编码器和一个文本解码器,其中不稳定的视觉特征会导致幻觉。研究人员发现,视觉嵌入中的扰动会导致生成的文本不一致。为了解决这个问题,他们提出了 VTI,它使用主成分分析 (PCA) 对受扰动的图像嵌入预先计算稳定的特征偏移。然后将这些偏移应用于新查询,从而无需额外训练即可提高特征稳定性。VTI 还会调整文本解码器嵌入以减少幻觉。实验证实了它在减轻幻觉方面的有效性,同时保持了跨不同任务和数据集的计算效率。
该研究评估了 VTI 在缓解 LVLM 中的幻觉方面的有效性。使用 80 个 COCO 图像文本对,该方法可跨任务和数据集进行推广。在 POPE、CHAIR 和 MMHAL-Bench 上的实验证明了 VTI 优于 OPERA 和 VCD 等基线方法。结果表明,视觉干预可以稳定特征表示,而文本干预可以增强图像注意力。它们的组合提高了准确性,同时保持了文本丰富性。此外,对 α 和 β 的消融研究证实了它们对减少幻觉的影响。VTI 有效地解决了多模式幻觉问题,同时不影响内容质量。
总之,这项研究表明 VTI 是缓解 LVLM 幻觉的有效方法。与 LLM 中的幻觉不同,LVLM 中的幻觉源于视觉输入和文本输出之间的错位,这通常是由于单独预先训练的图像编码器和文本解码器造成的。VTI 通过在推理过程中调整潜在空间表示来稳定视觉特征,无需额外训练。实验结果证实了它在减少幻觉的同时保持输出质量方面优于基线方法。这些发现强调了稳健特征表示的重要性,为在现实世界中更准确、更可靠的 LVLM 应用铺平了道路。
论文地址:https://openreview.net/pdf?id=LBl7Hez0fF
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57174.html