Mixed Precision Training

Cross-source consensus on Mixed Precision Training from 1 sources and 4 claims.

1 sources · 4 claims

How it works

OFU is precision-agnostic because TPA counts Tensor Core instruction cycles regardless of numeric format. — Instant GPU Efficiency Visibility at Fleet Scale
In a large mixed-precision GB200 pretraining run, OFU tracked precision-dependent utilisation changes without knowing the numeric format in use. — Instant GPU Efficiency Visibility at Fleet Scale
In GB200 precision scaling tests, OFU-derived speedups over TF32 were lower than theoretical speedups for BF16, FP8, and NVFP4. — Instant GPU Efficiency Visibility at Fleet Scale
Lower-precision deviations from theoretical speedups arise from scaling-factor overhead in block-scaled formats. — Instant GPU Efficiency Visibility at Fleet Scale