近年来,大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而,这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用暴露了它们在资源效率方面的局限性。尽管这些模型具有令人印象深刻的功能,但它们通常需要大量的计算能力和内存,这使得它们不适合许多用户,尤其是那些想要在资源有限的智能手机或边缘设备等设备上部署模型的用户。在本地运行这些大型 LLM 是一项昂贵的任务,无论是在硬件要求还是能耗方面。这在市场上造成了明显的空白,需要更小、更高效的模型,这些模型可以在设备上运行,同时仍能提供强大的性能。
为了应对这一挑战,Hugging Face 发布了SmolLM2 — 一系列专门针对设备上的应用进行优化的全新小型模型。SmolLM2 在其前身 SmolLM1 的成功基础上,提供了增强的功能,同时保持了轻量级。这些模型有三种配置:0.1B、0.3B 和 1.7B 参数。它们的主要优势是能够直接在设备上运行,而无需依赖大规模的基于云的基础设施,为延迟、隐私和硬件限制是重要因素的各种用例开辟了机会。SmolLM2 模型在 Apache 2.0 许可下可用,使广大开发人员和研究人员都可以使用它们。
SmolLM2 旨在通过紧凑和多功能性来克服大型 LLM 的局限性。SmolLM2 模型使用来自 FineWeb-Edu、DCLM 和 Stack 等数据集的 11 万亿个标记进行训练,涵盖了广泛的内容,主要侧重于英语文本。每个版本都针对文本重写、摘要和函数调用等任务进行了优化,使其非常适合各种应用程序 – 特别是在与云服务的连接可能有限的设备上的环境。在性能方面,SmolLM2 优于 Meta Llama 3.2 1B,在某些基准测试(例如 Qwen2.5 1B)中,它表现出了卓越的结果。
SmolLM2 系列包含先进的后训练技术,包括监督微调 (SFT) 和直接偏好优化 (DPO),这些技术可增强模型处理复杂指令和提供更准确响应的能力。此外,它们与 llama.cpp 和 Transformers.js 等框架兼容,这意味着它们可以在设备上高效运行,无论是使用本地 CPU 处理还是在浏览器环境中运行,而无需专门的 GPU。这种灵活性使 SmolLM2 成为边缘 AI 应用的理想选择,在这些应用中,低延迟和数据隐私至关重要。
SmolLM2 的发布标志着在使功能强大的 LLM 适用于更广泛的设备方面迈出了重要一步。与其前身 SmolLM1 在指令遵循和数学推理方面受到限制不同,SmolLM2 在这些方面表现出色,尤其是在 1.7B 参数版本中。该模型不仅在常见的 NLP 任务中表现出色,而且还支持更高级的功能,例如函数调用——这一功能使其特别适用于需要与现有软件无缝集成的自动编码助手或个人 AI 应用程序。
基准测试结果凸显了 SmolLM2 的改进。SmolLM2 在 IFEval 上的得分为 56.7,在 MT Bench 上的得分为 6.13,在 MMLU-Pro 上的得分为 19.3,在 GMS8k 上的得分为 48.2,表现出了极具竞争力的性能,通常可以匹敌甚至超越 Meta Llama 3.2 1B 模型。此外,其紧凑的架构使其能够在较大模型不切实际的环境中有效运行。这使得 SmolLM2 特别适用于基础设施成本令人担忧或对实时设备处理的需求优先于集中式 AI 功能的行业和应用。
SmolLM2 以紧凑的形式提供高性能,适合设备端应用。SmolLM2 的参数大小从 1.35 亿到 17 亿不等,可提供多功能性,同时不会影响边缘计算的效率和速度。它通过改进的数学推理处理文本重写、摘要和复杂的函数调用,使其成为设备端 AI 的经济高效的解决方案。随着小型语言模型对于注重隐私和延迟敏感的应用的重要性日益增加,SmolLM2 为设备端 NLP 树立了新标准。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/53511.html