大模型量化系列(一):LLM.int8() — 大模型量化领域的里程碑之作
论文: LLM.int8(): 8-bit Matrix Multiplication for Transformers at Scale作者: Tim Dettmers, Mike Lewis, Younes Belkada, Luke Zettlemoyer发表: NeurIPS 2022 | arXiv:2208.07339 30 秒速览朴素的 INT8 量化看似能将显存减半,但在大模型上会直接崩溃。LLM.int8() 首次揭示了原因:涌现异常特征(emergent features)——极少数隐藏维度会出现远超正常范围的激活值,撑爆量化范围。通过向量量化 + 混合精度分解的方案,它在当时的超大模型上实现了零精度损失的 INT8 推理。这项工作奠定了大模型量化领域的基础,后续 SmoothQuant、GPTQ、AWQ 等方法都建立在它发现的核心问题之上。 一、传统量化的三种手段1. 对称量化(Symmetric Quantization)最直观的量化方式。它的核心思想是:找到数据的绝对最大值,然后等比例映射到 INT8 的范围 [-127, 127]。 量化公式...