随着语言模型的规模和复杂性不断增长,训练和部署它们所需的资源需求也随之增长。虽然大规模模型可以在各种基准测试中取得卓越的性能,但由于基础设施的限制和高昂的运营成本,许多组织往往无法获得它们。这种能力与可部署性之间的差距带来了实际挑战,尤其是对于那些希望将语言模型嵌入实时系统或成本敏感型环境的企业而言。
近年来,小型语言模型(SLM) 应运而生,成为一种潜在的解决方案,它在不完全牺牲性能的情况下降低了内存和计算需求。然而,许多 SLM 难以在不同任务中提供一致的结果,而且它们的设计往往需要权衡利弊,从而限制泛化能力或可用性。
ServiceNow AI 发布 Aprilel-5B:迈向大规模实用 AI
为了解决这些问题,ServiceNow AI 发布了Apriel-5B,这是一系列全新的小型语言模型,其设计重点在于推理吞吐量、训练效率和跨领域多功能性。Apriel-5B 拥有48 亿个参数,规模足够小,可以部署在中等规模的硬件上,但在一系列指令跟踪和推理任务中仍然表现出色。
Apriel 家族包含两个版本:
- Apriel-5B-Base是一种预训练模型,旨在进一步调整或嵌入管道中。
- Apriel-5B-Instruct,一个针对聊天、推理和任务完成进行指令调整的版本。
这两种模型均根据MIT 许可证发布,支持开放实验以及在研究和商业用例中的更广泛采用。
架构设计和技术亮点
Apriel-5B 使用了超过4.5 万亿个词条进行训练,该数据集经过精心构建,涵盖多个任务类别,包括自然语言理解、推理和多语言能力。该模型采用针对推理效率进行优化的密集架构,并具备以下关键技术特性:
- 旋转位置嵌入(Rotary positional embeddings,RoPE)具有8,192 个标记的上下文窗口,支持长序列任务。
- FlashAttention-2,实现更快的注意力计算并提高内存利用率。
- 分组查询注意(GQA),减少自回归解码期间的内存开销。
- 在BFloat16中进行训练,确保与现代加速器的兼容性,同时保持数值稳定性。
这些架构决策使 Apriel-5B 无需依赖专用硬件或大规模并行化即可保持响应能力和速度。指令调优版本使用精选数据集和监督式技术进行微调,使其能够在极少的指令提示下,在一系列指令执行任务中表现出色。
评估洞察和基准比较
Apriel-5B-Instruct 已与多个广泛使用的开放模型进行了评估,包括 Meta 的 LLaMA 3.1-8B、Allen AI 的 OLMo-2-7B 和 Mistral-Nemo-12B。尽管规模较小,Apriel 在多个基准测试中均表现出了竞争力:
- 在通用任务中,平均表现优于OLMo-2–7B-Instruct和Mistral-Nemo-12B-Instruct 。
- 在以数学为中心的任务上,以及评估指令遵循一致性的IF Eval上,表现出比LLaMA-3.1–8B-Instruct更好的结果。
- 与 OLMo-2-7B 相比,所需的计算资源明显减少(GPU 小时数减少 2.3 倍),凸显了其训练效率。
这些结果表明,Apriel-5B 在轻量级部署和任务多功能性之间达到了有效的中间点,特别是在实时性能和有限资源是关键考虑因素的领域。
结论:模型生态系统的实用补充
Apriel-5B 代表了一种深思熟虑的小型模型设计方法,它强调平衡而非规模。ServiceNow AI 通过专注于推理吞吐量、训练效率和核心指令执行性能,创建了一个易于部署、适用于各种用例且开放集成的模型系列。
Apriel-5B 在数学和推理基准测试中表现出色,加上宽松的许可证和高效的计算配置,使其成为那些希望将 AI 功能融入产品、代理或工作流程的团队的理想之选。在这个日益注重可访问性和实际应用性的领域,Apriel-5B 是迈出的务实一步。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/jishu/57412.html