Skip to main content

Asap-zzhou's group workspace

Timestamps visible
2025-10-30 01:06:18
{'loss': 1.3314, 'grad_norm': 0.93359375, 'learning_rate': 4.528757751406321e-07, 'epoch': 19.24}
2025-10-30 01:06:21
{'loss': 1.1994, 'grad_norm': 6.0, 'learning_rate': 3.3442138403146917e-07, 'epoch': 19.35}
2025-10-30 01:06:23
{'loss': 1.2883, 'grad_norm': 1.5234375, 'learning_rate': 2.3384098474013017e-07, 'epoch': 19.46}
2025-10-30 01:06:26
{'loss': 1.1866, 'grad_norm': 0.890625, 'learning_rate': 1.5117077483612353e-07, 'epoch': 19.57}
2025-10-30 01:06:28
{'loss': 1.1912, 'grad_norm': 1.5, 'learning_rate': 8.644050624616041e-08, 'epoch': 19.67}
2025-10-30 01:06:30
{'loss': 1.3907, 'grad_norm': 1.0703125, 'learning_rate': 3.967347454684744e-08, 'epoch': 19.78}
2025-10-30 01:06:33
{'loss': 1.1403, 'grad_norm': 1.0625, 'learning_rate': 1.0886510580898624e-08, 'epoch': 19.89}
2025-10-30 01:06:35
{'loss': 1.2008, 'grad_norm': 0.96875, 'learning_rate': 8.997439993607692e-11, 'epoch': 20.0}
2025-10-30 01:06:37
{'eval_loss': 1.3181915283203125, 'eval_runtime': 1.3886, 'eval_samples_per_second': 3745.409, 'eval_steps_per_second': 7.921, 'epoch': 20.0}
2025-10-30 01:06:39
{'train_runtime': 512.3445, 'train_samples_per_second': 1826.896, 'train_steps_per_second': 3.591, 'train_loss': 1.331548237800598, 'epoch': 20.0}