Skip to content

Latest commit

 

History

History
34 lines (22 loc) · 2.09 KB

DeepSpeed:模型压缩模块详解.md

File metadata and controls

34 lines (22 loc) · 2.09 KB

ZeroQuant-零成本高效训练后量化

DS-Compression 模块支持零成本的 INT8 量化和 INT4/INT8 混合精度量化,算法原理可以参考作者的论文

什么是 ZeroQuant

ZeroQuant 是一种高效的训练后量化方法,它包括:

  1. 针对权重和激活的细粒度硬件友好量化方案,可以显着降低量化误差;
  2. 一种新的负担得起的逐层知识蒸馏算法 (LKD),且无需原始训练集;
  3. 一个高度优化的量化系统后端支持,以消除量化/反量化开销。

通过上述这些技术,ZeroQuant 能够将模型量化为 INT8 而无需任何成本(1),以及将模型量化为 INT4/INT8 混合精度量化(2),而资源需求最少(例如,基于 BERT 的量化需要 31s)。

什么时候使用 ZeroQuant

  1. 当进行训练中量化(quantization aware training,QAT)非常消耗 GPU 资源时;
  2. 原始训练数据集无法使用。

当存在以上两种情况,可以考虑将 transformer 架构的模型量化成 INT8INT4/INT8 格式。

如何使用 ZeroQuant

参考资料