AMD 发布 AMD-135M：开源小语言模型

AIGC • 2024年9月29日上午10:08 • 行业资讯

近日，AMD 宣布，“AMD-135M ”是他们公开发布的首个小型语言模型。AMD-135M 是开源的，其训练代码、数据集和权重都是开源的，有助于其他 SLM 和 LLM 的开发。

AMD-135M 具有投机解码功能，使用 AMD Instinct MI250 加速器从头开始训练，共使用了 6700 亿个令牌。使用四个 MI250 节点进行的训练耗时六天。AMD-135M 还有一个 AMD-Llama-135M 代码变体，拥有额外的 200 亿 token 代码数据。AMD-135M 基于 LLaMA2 模型架构。

AMD 正在将所有 AMD-135M 模型资产开源，希望能帮助其他人工智能开发公司——就 AMD 而言，希望训练和推理是在 AMD 硬件上进行的。

有关 AMD-135M SLM 的更多详情，请访问 AMD 博客。AMD-135M 可通过 HuggingFace 和 https://github.com/AMD-AIG-AIMA/AMD-LLM 获取。

本文来自作者投稿，版权归原作者所有。如需转载，请注明出处：https://www.nxrte.com/zixun/52704.html

语言模型

AIGC

0 0

技术文章

大模型推理框架RTP-LLM对LoRA的支持

01 引言 LoRA(Low-rank Adapter)在大模型（如GPT-3，LLama, Qwen等）中，是一种重要的微调技术。该技术通过在不改变预训练模型参数的同时，添加低阶…

大厂Animal
2024年2月2日
技术文章

AnyMAL：一种高效、可拓展的任意模态增强语言模型

这篇文章介绍了一种名为AnyMAL的高效、可扩展的任意模态增强语言模型。AnyMAL是一个统一的模型，能够处理多种输入模态信号（例如文本、图像、视频、音频、惯性测量单元和运动传感器…

AIGC
2024年3月21日
技术文章

SAM2Long：用于长视频分割的 SAM 2 免训练增强版

长视频分割涉及将视频分解成若干部分，以分析运动、遮挡和不同光线条件等复杂过程。它在自动驾驶、监控和视频编辑中有着多种应用。在长视频序列中准确分割对象具有挑战性，但也至关重要。困难在…

视频技术
2024年10月28日
行业资讯

在企业中部署大型语言模型的机会和限制

生成式人工智能风靡一时。在过去的几个月里，我们看到了现成的大型语言和开源模型的爆炸式增长，例如Meta的Llama 2、OpenAI的GPT-4、Anthropic的Claude …

假装是大佬
2023年10月20日
技术文章

MinMo：约 8B 参数的多模态大型语言模型，实现无缝语音交互

大型语言和多模态语音文本模型的进步为无缝、实时、自然和类人语音交互奠定了基础。要实现这一点，系统需要处理语音内容、情绪语调和音频提示，同时给出准确而连贯的响应。然而，在克服语音和文…

AIGC
2025年1月16日
技术文章

亚马逊推出 Amazon Nova：新一代 SOTA 基础模型，可提供高级智能以及价格与性能的良好平衡

人工智能和机器学习的进步为各行各业的企业带来了新功能。从文本生成到视频合成，现代人工智能模型正在改变组织的运营和创新方式。然而，像 GPT-4 和 Llama 这样的大型基础模型在…

AIGC
2024年12月4日