Self-distill first try (300M models)

Best single model loss: 3.587 Best two ensemble loss: approximately 3.43

Created on July 16|Last edited on September 8

Comment

﻿
Section 1﻿
eval/dclm/loss
eval/dclm/loss
0.20.40.60.8run_progress3.63.844.24.44.6
300m4k-209Mx16-dclm+sd0805^0.999999-cos-lr0.0030-wd0.10-bs64
300m4k-209Mx16-dclm+sd0805^0.999999-cos-lr0.0030-wd0.20-bs64
300m4k-209Mx16-dclm+sd0805^0.999999-cos-lr0.0030-wd1.60-bs64
300m4k-209Mx16-dclm+sd0805^0.999999-cos-lr0.0030-wd0.80-bs64
300m4k-209Mx16-dclm+sd0805^0.999999-cos-lr0.0030-wd0.40-bs64
300m4k-209Mx16-dclm+sd0805^0.5-cos-lr0.0030-wd0.40-bs64
 
reference1
 
sd0715 runs1
 
ens2d0717 runs2
 
ens4d0721 runs1
 
4 separate1
 
sd08051
 
8 sep1
ablation6
﻿
﻿

Add a comment