Four Over Six
-
突破NVFP4量化性能瓶颈!MIT与NVIDIA提出Four Over Six开源方案:近BF16困惑度与<2%推理开销兼得!
关键词: NVFP4 、Four Over Six(4/6)、大型语言模型(LLM)、自适应块缩放 、低精度训练 、 后训练量化(PTQ) Four Over Six: More Accurate NVFP4 Quantization with Adaptive Block Scaling 代码: https://github.com/mit-han-lab…