Skip to main content

Annavettoruzzo's group workspace

Timestamps visible
2025-05-06 12:11:39
 [2025-05-06 08:11:39] iteration     8805/    8815 | consumed samples:      9016320 | elapsed time per iteration (ms): 1993.9 | throughput per GPU (TFLOP/s/GPU): 136.9 | learning rate: 3.213267E-05 | global batch size:  1024 | lm loss: 2.865290E+00 | z_loss: 2.171524E-02 | load_balancing_loss: 1.008450E+00 | loss scale: 1.0 | grad norm: 0.077 | num zeros: 16976128.0 | number of skipped iterations:   0 | number of nan iterations:   0 |
2025-05-06 12:11:51
 [2025-05-06 08:11:51] iteration     8810/    8815 | consumed samples:      9021440 | elapsed time per iteration (ms): 2361.3 | throughput per GPU (TFLOP/s/GPU): 115.6 | learning rate: 3.106424E-05 | global batch size:  1024 | lm loss: 2.863165E+00 | z_loss: 2.164211E-02 | load_balancing_loss: 1.007525E+00 | loss scale: 1.0 | grad norm: 0.083 | num zeros: 18217874.0 | number of skipped iterations:   0 | number of nan iterations:   0 |
2025-05-06 12:12:02
 [2025-05-06 08:12:02] iteration     8815/    8815 | consumed samples:      9026560 | elapsed time per iteration (ms): 2173.8 | throughput per GPU (TFLOP/s/GPU): 125.6 | learning rate: 3.000000E-05 | global batch size:  1024 | lm loss: 2.861036E+00 | z_loss: 2.145980E-02 | load_balancing_loss: 1.007583E+00 | loss scale: 1.0 | grad norm: 0.081 | num zeros: 16931272.0 | number of skipped iterations:   0 | number of nan iterations:   0 |
2025-05-06 12:13:02
(min, max) time across ranks (ms):
2025-05-06 12:13:02
    evaluate .......................................: (48668.20, 48669.63)
2025-05-06 12:13:03
------------------------------------------------------------------------------------------------------------------
2025-05-06 12:13:03
 validation loss at iteration 8815 on validation set | lm loss value: 2.862723E+00 | lm loss PPL: 1.750915E+01 |
2025-05-06 12:13:03
------------------------------------------------------------------------------------------------------------------
2025-05-06 12:13:52
(min, max) time across ranks (ms):
2025-05-06 12:13:52
    evaluate .......................................: (49090.06, 49091.56)
2025-05-06 12:13:52
------------------------------------------------------------------------------------------------------------
2025-05-06 12:13:52
 validation loss at iteration 8815 on test set | lm loss value: 2.860971E+00 | lm loss PPL: 1.747849E+01 |
2025-05-06 12:13:52
------------------------------------------------------------------------------------------------------------