Skip to main content

Levmckinney's group workspace

Timestamps visible
2023-04-30 21:58:10
Gradient accumulation steps: 128
2023-04-30 21:58:10
Using 262_144 tokens per training step.
2023-04-30 21:58:10
All processes have completed setup. Starting training.
2023-05-01 11:38:22
Training: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 32000/32000 [13:40:13<00:00,  1.54s/it]
2023-05-01 11:38:23
Saving lens to pythia-1.4b-deduped