Standard scaling runs

Created on August 5|Last edited on August 14
Comment
﻿
﻿
eval/dclm/loss v. trainer.train_batch_size
eval/dclm/loss v. trainer.train_batch_size
1e+12e+13e+14e+15e+16e+1trainer.train_batch_size3.544.555.5eval/dclm/loss
eval/dclm/loss v. trainer.num_train_steps
eval/dclm/loss v. trainer.num_train_steps
1e+32e+33e+34e+31e+4trainer.num_train_steps3.544.555.5eval/dclm/loss
eval/dclm/loss v. optimizer.weight_decay
eval/dclm/loss v. optimizer.weight_decay
1e+02e+01e+1optimizer.weight_decay3.53.63.73.83.94eval/dclm/loss
eval/dclm/loss
eval/dclm/loss
4050607080901002003004005006007008009001k2k3k4k5k6k7k8k9k10kStep3.544.555.56
600m4k-209Mx1-dclm-cos-lr0.3300-wd0.10-bs8   chinchilla single runs
1_4b4k-209Mx8-dclm-cos-lr0.0010-wd3.20-bs64   weight decay
1_4b4k-209Mx8-dclm-cos-lr0.0010-wd6.40-bs64   weight decay
1_4b4k-209Mx8-dclm-cos-lr0.0010-wd1.60-bs64   weight decay
300m4k-209Mx16-dclm-cos-lr0.0030-wd1.60-bs64   weight decay
300m4k-209Mx16-dclm-cos-lr0.0030-wd0.80-bs64   weight decay
300m4k-209Mx16-dclm-cos-lr0.0030-wd3.20-bs64   weight decay
1_4b4k-209Mx8-dclm-cos-lr0.0010-wd12.80-bs64   weight decay
300m4k-209Mx16-dclm-cos-lr0.0030-wd0.40-bs64   weight decay
1_4b4k-209Mx8-dclm-cos-lr0.0010-wd0.80-bs64   weight decay
1_4b4k-209Mx8-dclm-cos-lr0.0010-wd0.40-bs64   weight decay
 
batch size4
 
epoching8
 
epoching w/ weight decay8
weight decay24
chinchilla single runs4
﻿
﻿
Add a comment