微软联手苏黎世联邦理工学院，发布全新大语言模型压缩方案

1月29日讯，据 huggingface 页面显示，微软近日联手苏黎世联邦理工学院，发布了一款名为SliceGPT的大语言模型压缩方案。

据悉，SliceGPT通过替换每个权重矩阵为一个更小（密集）的矩阵来减少网络的嵌入维度。通过广泛的实验，作者展示了SliceGPT能够在保持99%、99%和90%的零样本任务性能的同时，为LLAMA-2 70B、OPT 66B和Phi-2模型移除高达25%的模型参数（包括嵌入）。

此外，SliceGPT的切片模型在24GB消费级GPU上运行时，推理的总计算量减少到密集模型的64%；在40GB A100 GPU上，这一比例降低到66%。 [原文链接]