NVIDIA AI 发布 UltraLong-8B：超长上下文语言模型，旨在处理大量文本序列

AIGC • 2025年4月14日上午11:00 • 技术文章

大型语言模型 LLM 在各种文本和多模态任务中展现出卓越的性能。然而，许多应用，例如文档和视频理解、上下文学习以及推理时间扩展，都需要能够处理和推理长序列的标记。LLM 有限的上下文窗口在这些情况下构成了重大挑战，因为分散在长文档中的关键信息可能会被忽略。模型在处理海量文档或视频时，往往会错过关键信息，超出其固定上下文窗口的范围。这种限制使得我们需要一种能够高效处理超长上下文，且不会牺牲标准任务性能的模型。

现有的长上下文语言模型的上下文扩展策略分为三类：精确注意力方法、近似注意力方法和引入附加模块的方法。位置插值、NTK感知、动态NTK、YaRN和CLEX等方法通过重新设计位置嵌入来增强注意力机制。最近的进展包括GPT-4o、Gemini和Claude等模型，它们支持包含数十万个token的广泛上下文窗口，但它们的闭源特性限制了可复现性。像ProLong这样的开源项目使用了NTK感知扩展，但计算成本高昂，而Gradient则使用了包含标准任务执行的持续预训练。

来自UIUC和NVIDIA的研究人员提出了一种高效的训练方案，用于从对齐指令模型构建超长上下文LLM，将上下文长度的界限从128K扩展到1M、2M和4M个token。该方法利用高效的持续预训练策略来扩展上下文窗口，同时通过指令调整来保持指令跟随和推理能力。此外，他们的 UltraLong-8B 模型在各种长上下文基准测试中均取得了最佳性能。采用此方法训练的模型在标准基准测试中保持了极具竞争力的性能，并在长上下文和短上下文任务中展现出均衡的提升。该研究对关键的设计选择进行了深入分析，并重点强调了扩展策略和数据组合的影响。

NVIDIA AI 发布 UltraLong-8B：超长上下文语言模型，旨在处理大量文本序列

所提出的方法包含两个关键阶段：持续预训练和指令调整。这两个阶段共同作用，能够有效处理超长输入，同时保持跨任务的强大性能。上下文扩展采用基于 YaRN 的缩放方法，其超参数固定为 α = 1 和 β = 4，而非基于 NTK 的缩放策略。缩放因子根据目标上下文长度计算，并对 RoPE 嵌入采用更大的缩放因子，以适应扩展序列并减轻最大长度下的性能下降。研究人员对涵盖通用、数学和代码领域的高质量 SFT 数据集进行子采样以获取训练数据，并进一步利用 GPT-4o 和 GPT-4o-mini 来优化响应并执行严格的数据净化。

在 Haystack 密码检索测试 Needle 中，所提出的模型展现出卓越的长上下文检索能力。Llama-3-8B-Instruct-Gradient-1048k 等基准模型通过了测试，但 Llama3.1-8B-Instruct 和 Llama-3-8B-ProLong-512k-Instruct 出现了错误。相比之下，UltraLong 模型在所有输入长度和深度上均达到了 100% 的准确率，展现出强大的检索能力。UltraLong 在 RULER 测试中，对于高达 512K 和 1M 个 token 的输入取得了最高平均分数，在 LV-Eval 测试中，对于 128K 和 256K 个 token 长度取得了最高的 F1 分数，并在 InfiniteBench 测试中获得了最佳性能。此外，这些模型在通用、数学和代码领域保持了强劲的性能，平均得分分别为 62.47、61.06 和 60.95，超过了基础模型的 61.45。

本研究论文介绍了一种高效且系统的超长上下文语言模型训练方法，将上下文窗口扩展至 1M、2M 和 4M 个 token，同时在标准基准测试中保持竞争性性能。该方法将高效的持续预训练与指令调优相结合，以增强长上下文理解和指令跟踪能力。然而，该方法在指令调优阶段仅关注指令数据集上的 SFT，而未探索强化学习或偏好优化。此外，它也没有解决安全对齐问题。未来的研究包括集成安全对齐机制并探索高级调优策略，以进一步提升性能和可信度。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/57383.html