ServiceNow AI 发布 Aprilel-5B，以更少的资源超越更大的 LLM

AIGC • 2025年4月15日上午10:23 • 技术文章

随着语言模型的规模和复杂性不断增长，训练和部署它们所需的资源需求也随之增长。虽然大规模模型可以在各种基准测试中取得卓越的性能，但由于基础设施的限制和高昂的运营成本，许多组织往往无法获得它们。这种能力与可部署性之间的差距带来了实际挑战，尤其是对于那些希望将语言模型嵌入实时系统或成本敏感型环境的企业而言。

近年来，小型语言模型(SLM) 应运而生，成为一种潜在的解决方案，它在不完全牺牲性能的情况下降低了内存和计算需求。然而，许多 SLM 难以在不同任务中提供一致的结果，而且它们的设计往往需要权衡利弊，从而限制泛化能力或可用性。

ServiceNow AI 发布 Aprilel-5B：迈向大规模实用 AI

为了解决这些问题，ServiceNow AI 发布了Apriel-5B，这是一系列全新的小型语言模型，其设计重点在于推理吞吐量、训练效率和跨领域多功能性。Apriel-5B 拥有48 亿个参数，规模足够小，可以部署在中等规模的硬件上，但在一系列指令跟踪和推理任务中仍然表现出色。

Apriel 家族包含两个版本：

Apriel-5B-Base是一种预训练模型，旨在进一步调整或嵌入管道中。
Apriel-5B-Instruct，一个针对聊天、推理和任务完成进行指令调整的版本。

这两种模型均根据MIT 许可证发布，支持开放实验以及在研究和商业用例中的更广泛采用。

架构设计和技术亮点

Apriel-5B 使用了超过4.5 万亿个词条进行训练，该数据集经过精心构建，涵盖多个任务类别，包括自然语言理解、推理和多语言能力。该模型采用针对推理效率进行优化的密集架构，并具备以下关键技术特性：

旋转位置嵌入（Rotary positional embeddings，RoPE）具有8,192 个标记的上下文窗口，支持长序列任务。
FlashAttention-2，实现更快的注意力计算并提高内存利用率。
分组查询注意（GQA），减少自回归解码期间的内存开销。
在BFloat16中进行训练，确保与现代加速器的兼容性，同时保持数值稳定性。

这些架构决策使 Apriel-5B 无需依赖专用硬件或大规模并行化即可保持响应能力和速度。指令调优版本使用精选数据集和监督式技术进行微调，使其能够在极少的指令提示下，在一系列指令执行任务中表现出色。

ServiceNow AI 发布 Aprilel-5B，以更少的资源超越更大的 LLM

评估洞察和基准比较

Apriel-5B-Instruct 已与多个广泛使用的开放模型进行了评估，包括 Meta 的 LLaMA 3.1-8B、Allen AI 的 OLMo-2-7B 和 Mistral-Nemo-12B。尽管规模较小，Apriel 在多个基准测试中均表现出了竞争力：

在通用任务中，平均表现优于OLMo-2–7B-Instruct和Mistral-Nemo-12B-Instruct 。
在以数学为中心的任务上，以及评估指令遵循一致性的IF Eval上，表现出比LLaMA-3.1–8B-Instruct更好的结果。
与 OLMo-2-7B 相比，所需的计算资源明显减少（GPU 小时数减少 2.3 倍），凸显了其训练效率。

这些结果表明，Apriel-5B 在轻量级部署和任务多功能性之间达到了有效的中间点，特别是在实时性能和有限资源是关键考虑因素的领域。

ServiceNow AI 发布 Aprilel-5B，以更少的资源超越更大的 LLM

结论：模型生态系统的实用补充

Apriel-5B 代表了一种深思熟虑的小型模型设计方法，它强调平衡而非规模。ServiceNow AI 通过专注于推理吞吐量、训练效率和核心指令执行性能，创建了一个易于部署、适用于各种用例且开放集成的模型系列。

Apriel-5B 在数学和推理基准测试中表现出色，加上宽松的许可证和高效的计算配置，使其成为那些希望将 AI 功能融入产品、代理或工作流程的团队的理想之选。在这个日益注重可访问性和实际应用性的领域，Apriel-5B 是迈出的务实一步。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/jishu/57412.html

赞 (0)

0 0

技术文章

Neural Magic 发布 Sparse Llama 3.1 8B：更小的模型，实现高效的 GPU 推理

人工智能模型规模的快速增长带来了巨大的计算和环境挑战。近年来，深度学习模型（尤其是语言模型）规模大幅扩张，需要更多的资源进行训练和部署。这种需求的增加不仅增加了基础设施成本，还导致…

AIGC
2024年11月26日
技术文章

Nexa AI 发布 OmniVision-968M：最小的视觉语言模型，可为边缘设备减少 9 倍的 Token 数量

边缘人工智能长期以来一直面临着平衡效率和有效性的挑战。由于边缘设备规模大、计算需求高以及延迟问题，在边缘设备上部署视觉语言模型 (VLM) 非常困难。为云环境设计的模型通常会因边缘…

AIGC
2024年11月18日
技术文章

SmolLM2 发布：新系列（0.1B、0.3B 和 1.7B）小语言模型，性能优于 Meta Llama 3.2 1B

近年来，大型语言模型 (LLM) 的激增极大地改变了我们处理自然语言处理任务的方式。然而，这些进步并非没有缺点。GPT-4 和 Meta 的 LLaMA 等大型 LLM 的广泛使用…

AIGC
2024年11月1日
技术文章

声学模型和语言模型融合的N种方式

作者：Ryuk来源：语音算法组链接：https://mp.weixin.qq.com/s/PMKFQvPNLJH7qXqp8fWjkA 语音识别算法目的是从声学特征x中找到最有可能…

音频技术
2024年11月13日
技术文章

OpenR：增强大型语言模型推理能力的开源 AI 框架

大型语言模型 (LLM) 在语言生成方面取得了重大进展，但其推理能力仍然不足以解决复杂的问题。数学、编码和科学问题等任务继续带来重大挑战。增强 LLM 的推理能力对于将其能力提升到…

AIGC
2024年10月14日
技术文章

LongRoPE：超越极限，将大模型上下文窗口扩展超过200万tokens

编者按：大模型的飞速发展给人们的生活带来了前所未有的便利。我们是否能够设想利用大模型的潜力，快速扫描整部百科全书、解析繁琐复杂的法律条款，甚至对文章进行精准引用呢？在未来，这些将统…

AIGC
2024年4月16日

发表回复

登录后才能评论