Skip to main content

Levmckinney's group workspace

Timestamps visible
2023-04-28 22:09:33
Gradient accumulation steps: 64
2023-04-28 22:09:33
Using 262_144 tokens per training step.
2023-04-28 22:09:33
All processes have completed setup. Starting training.
2023-04-29 01:48:18
Training: 100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16000/16000 [3:38:45<00:00,  1.22it/s]
2023-04-29 01:48:17
Saving lens to pythia-160m-deduped