大模型量化系列(一):LLM.int8() — 大模型量化领域的里程碑之作
论文: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale作者: Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer发表: NeurIPS 2022 | arXiv:2208.07339 30 秒速览朴素的 INT8 量化看似能将显存减半,但在大模型上会直接崩溃。LLM.int8() 首次揭示了原因:涌现异常特征(emergent features)——极少数隐藏维度会出现远超正常范围的激活值,撑爆量化范围。通过向量量化 + 混合精度分解的方案,它在当时的超大模型上实现了零精度损失的 INT8 推理。这项工作奠定了大模型量化领域的基础,后续 SmoothQuant、GPTQ、AWQ 等方法都建立在它发现的核心问题之上。 一、传统量化手段论文的背景部分介绍了两种基础量化策略,以及它们在粒度上的变体。 1. Absmax 量化(绝对最大值量化)论文原文称为 Absmax quantization,是最常用的量化方式。核心思想是:找...