LLM-Distributed-Quantization Reports

Accelerating multi-node Large Language Model training with per-layer selective quantization (e.g. FP32 -> FP16) of the transformer architecture.

2022-08-02

3 years ago