近日,AMD 宣布,“AMD-135M ”是他们公开发布的首个小型语言模型。AMD-135M 是开源的,其训练代码、数据集和权重都是开源的,有助于其他 SLM 和 LLM 的开发。
AMD-135M 具有投机解码功能,使用 AMD Instinct MI250 加速器从头开始训练,共使用了 6700 亿个令牌。使用四个 MI250 节点进行的训练耗时六天。AMD-135M 还有一个 AMD-Llama-135M 代码变体,拥有额外的 200 亿 token 代码数据。AMD-135M 基于 LLaMA2 模型架构。
AMD 正在将所有 AMD-135M 模型资产开源,希望能帮助其他人工智能开发公司——就 AMD 而言,希望训练和推理是在 AMD 硬件上进行的。
有关 AMD-135M SLM 的更多详情,请访问 AMD 博客。AMD-135M 可通过 HuggingFace 和 https://github.com/AMD-AIG-AIMA/AMD-LLM 获取。
本文来自作者投稿,版权归原作者所有。如需转载,请注明出处:https://www.nxrte.com/zixun/52704.html