Meta AI 发布 Llama 3.2(1B 和 3B)的新量化版本:推理速度提高 2-4 倍,模型大小缩小 56%

大型语言模型 (LLM) 的快速发展为各个领域带来了重大进步,但也带来了巨大的挑战。Llama 3 等模型在自然语言理解和生成方面取得了令人瞩目的进步,但它们的大小和计算要求往往限制了它们的实用性。高昂的能源成本、漫长的训练时间以及对昂贵硬件的需求是许多组织和研究人员使用 AI 的障碍。这些挑战不仅影响环境,还扩大了科技巨头与试图利用 AI 能力的小型企业之间的差距。

Meta AI 的 Quantized Llama 3.2 模型 (1B 和 3B)

Meta AI 最近发布了 Quantized Llama 3.2 模型(1B 和 3B),这是让更广泛的用户能够使用最先进的 AI 技术的重要一步。这些是第一批轻量级量化 Llama 模型,体积小巧,性能强大,可以在许多流行的移动设备上运行。研究团队采用了两种不同的技术来量化这些模型:带有 LoRA 适配器的量化感知训练 (QAT),优先考虑准确性;以及 SpinQuant,一种最先进的训练后量化方法,专注于可移植性。这两个版本都可以作为此版本的一部分下载。这些模型代表了原始 Llama 3 系列的量化版本,旨在优化计算效率并显著减少操作它们所需的硬件占用空间。通过这样做,Meta AI 旨在提高大型模型的性能,同时减少部署所需的计算资源。这使得研究人员和企业都可以使用强大的 AI 模型,而无需专门的、昂贵的基础设施,从而让尖端 AI 技术的使用变得民主化。

Meta AI 拥有丰富的计算资源、训练数据、全面评估和对安全性的关注,因此在提供这些量化模型方面具有独特的优势。这些模型采用与原始 Llama 3 模型相同的质量和安全要求,同时实现了 2-4 倍的显著加速。与原始 BF16 格式相比,它们的模型大小平均减少了 56%,内存使用量平均减少了 41%。这些令人印象深刻的优化是 Meta 努力的一部分,旨在让高级 AI 更易于访问,同时保持高性能和安全标准。

技术细节和优势

Quantized Llama 3.2 的核心基于量化——一种将模型权重和激活的精度从 32 位浮点数降低为低位表示的技术。具体来说,Meta AI 采用 8 位甚至 4 位量化策略,使模型能够在显着减少内存和计算能力的情况下有效运行。这种量化方法保留了 Llama 3 的关键特性和能力,例如其执行高级自然语言处理 (NLP) 任务的能力,同时使模型更加轻量级。好处显而易见:Quantized Llama 3.2 可以在功能较弱的硬件上运行,例如消费级 GPU 甚至 CPU,而不会大幅降低性能。这也使这些模型更适合实时应用,因为较低的计算要求可以缩短推理时间。

Llama Stack 参考实现通过 PyTorch 的 ExecuTorch 框架支持使用这两种量化技术进行推理。此外,Meta AI 还与行业领先的合作伙伴合作,将这些模型应用于搭载 Arm CPU 的 Qualcomm 和联发科片上系统 (SoC)。这种合作关系确保这些模型能够高效地部署在各种设备上,包括流行的移动平台,从而进一步扩大 Llama 3.2 的覆盖范围和影响力。

Meta AI 发布 Llama 3.2(1B 和 3B)的新量化版本:推理速度提高 2-4 倍,模型大小缩小 56%

重要性和早期成果

Quantized Llama 3.2 非常重要,因为它直接解决了与 LLM 相关的可扩展性问题。通过在保持高性能的同时减小模型大小,Meta AI 使这些模型更适用于计算资源有限的边缘计算环境。早期的基准测试结果表明,Quantized Llama 3.2 在关键 NLP 基准测试中的表现约为完整 Llama 3 模型的 95%,但内存使用量减少了近 60%。对于希望在不投资高端基础设施的情况下实现 AI 的企业和研究人员来说,这种效率至关重要。此外,在商用硬件上部署这些模型的能力与可持续 AI 的当前趋势非常吻合,减少了训练和部署 LLM 对环境的影响。

结论

Meta AI 发布的 Quantized Llama 3.2 标志着高效 AI 模型的发展迈出了重要一步。通过专注于量化,Meta 提供了一种平衡性能和可访问性的解决方案,使更广泛的受众能够从高级 NLP 功能中受益。这些量化模型解决了采用 LLM 的主要障碍,例如成本、能耗和基础设施要求。这项技术的更广泛影响可能带来更公平的 AI 访问,促进小型企业和研究人员以前无法触及的领域的创新。Meta AI 努力突破高效 AI 建模的界限,凸显了人们对可持续、包容性 AI 发展的日益重视——这一趋势必将塑造 AI 研究和应用的未来。

详细信息:https://ai.meta.com/blog/meta-llama-quantized-lightweight-models/

本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53329.html

(0)

相关推荐

发表回复

登录后才能评论