微软联手苏黎世联邦理工学院,发布全新大语言模型压缩方案

1月29日讯,据 huggingface 页面显示,微软近日联手苏黎世联邦理工学院,发布了一款名为SliceGPT的大语言模型压缩方案。

据悉,SliceGPT通过替换每个权重矩阵为一个更小(密集)的矩阵来减少网络的嵌入维度。通过广泛的实验,作者展示了SliceGPT能够在保持99%、99%和90%的零样本任务性能的同时,为LLAMA-2 70B、OPT 66B和Phi-2模型移除高达25%的模型参数(包括嵌入)。

此外,SliceGPT的切片模型在24GB消费级GPU上运行时,推理的总计算量减少到密集模型的64%;在40GB A100 GPU上,这一比例降低到66%。 [原文链接]

上一篇:

下一篇:

发表回复

登录后才能评论