Skip to main content

Levmckinney's group workspace

Timestamps visible
2023-04-29 03:49:26
Gradient accumulation steps: 64
2023-04-29 03:49:26
Using 262_144 tokens per training step.
2023-04-29 03:49:26
All processes have completed setup. Starting training.
2023-04-29 12:12:55
Training: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16000/16000 [8:23:29<00:00,  1.89s/it]
2023-04-29 12:12:55
Saving lens to pythia-410m-deduped