华为发布开源技术 SINQ,大幅降低大语言模型硬件需求
华为苏黎世计算系统实验室推出名为 SINQ(Sinkhorn-Normalized Quantization)的开源量化技术,可将大语言模型内存使用量减少 60-70%,使原本需要超过 60GB 内存的模型能在约 20GB 配置上运行。该技术让此前需要 NVIDIA A100(1.9 万美元)或 H100(超过 3 万美元)企业级 GPU 的模型,现在可在单块 RTX 4090(约 1600 美元)消费级显卡上运行。SINQ 采用双轴缩放和 Sinkhorn-Knopp 风格归一化两项创新技术,无需校准数据即可实现高质量量化。在 WikiText2 和 C4 等基准测试中,SINQ 在多种架构模型上均表现优异,量化速度比 HQQ 快约 2 倍,比 AWQ 快超过 30 倍。华为已在 GitHub 和 Hugging Face 上以 Apache 2.0 许可证开源该技术。
VentureBeat | Huggingface
页:
[1]