大型语言模型 (LLM) 的广泛采用为对话式 AI、内容生成和设备端应用等领域带来了重大进步。然而,部署这些模型严重依赖大量云资源,引发了对延迟、成本和环境可持续性的担忧。像 GPT-4 这样的万亿参数模型需要巨大的计算能力,这使得基于云的 LLM 的财务和能源成本越来越难以承受。移动硬件在内存和处理能力方面的限制进一步加剧了这些挑战,因此有必要开发适合移动部署的更小、更高效的模型。
Meta 最近发布了 MobileLLM,这是一组具有不同大小的语言模型检查点:125M、350M、600M 和 1B 参数。该版本旨在优化 LLM 在移动设备上的部署,提供参数数量低于十亿的模型,这些模型在节省资源的同时提供具有竞争力的性能。这些模型可以在 Hugging Face 上使用,它们为移动设备带来了高级 NLP 功能,而无需严重依赖云资源,从而降低了延迟和运营成本。MobileLLM 利用深而薄的架构,违背了传统的缩放定律(Kaplan 等人,2020 年),这些定律强调需要更多参数来提高性能。相反,它更注重深度而不是宽度,从而增强了其捕捉抽象概念和提高最终性能的能力。这些模型可以在 Hugging Face Hub 上使用,并且可以与 Transformers 库无缝集成。
MobileLLM 采用了多项关键创新,使其有别于之前的十亿分之一参数模型。所使用的主要技术之一是嵌入共享,即在输入层和输出层之间重复使用相同的权重,从而最大限度地提高权重利用率,同时减小模型大小。此外,该模型还采用了 Ainslie 等人 (2023) 提出的分组查询注意 (GQA),可优化注意机制并提高效率。另一个值得注意的功能是即时块级权重共享,即在相邻块之间复制权重以减少延迟,而不会显著增加模型大小。这种方法减少了移动权重的需要,从而缩短了执行时间。这些技术细节有助于使 MobileLLM 非常高效,并且能够在设备上运行,同时最大限度地减少对云计算的依赖。
MobileLLM 的重要性在于它能够将复杂的语言建模引入移动设备,而不会影响性能。在零样本任务中,MobileLLM 的表现优于之前类似大小的先进 (SOTA) 模型,125M 模型比 350M 模型高出 2.7%,比 4.3%。这证明了该模型在聊天和 API 调用等设备上应用方面的潜力。在 API 调用任务中,MobileLLM-350M 模型实现了与较大的 LLaMA-v2 7B 模型相当的精确匹配分数,尽管尺寸较小,但仍展示了其具有竞争力的性能。这些进步凸显了像 MobileLLM 这样的小型高效模型如何在减少移动用例的延迟和能耗方面发挥重要作用。
总之,Meta 的 MobileLLM 为人们日益关注的大规模 LLM 的计算和环境成本问题提供了一种创新的解决方案。通过专注于深度而非宽度、嵌入共享、分组查询注意和即时块权重共享,MobileLLM 能够在无需大量资源的情况下提供高性能。此版本代表着将 LLM 的强大功能引入移动设备、增强其在从聊天到 API 集成等一系列应用程序中的功能方面迈出了重要一步,同时保持了效率并降低了运营成本。随着移动技术的不断发展,像 MobileLLM 这样的模型将有助于突破设备上可以实现的界限。
查看完整发布:https://huggingface.co/collections/facebook/mobilellm-6722be18cb86c20ebe113e95
论文地址:https://arxiv.org/pdf/2402.14905
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53507.html