MLM: whole word masking?

comparison of a handful of MLM runs using a 6-layer MEGA arch

Created on January 16|Last edited on January 16

Comment

﻿
Charts
eval﻿
eval/accuracy
eval/accuracy
0.511.52train/epoch0.4
mega-encoder-6-v0-simple_wikipedia_LM_1024-noWW-drop
mega-encoder-6-v0-MR0.40-1024ctx-noWW
mega-encoder-6-v0-MR0.40-1024ctx-noWW
mega-encoder-6-v0-MR0.40-1024ctx-vN
eval/loss
eval/loss
0.511.52train/epoch3.544.55
mega-encoder-6-v0-simple_wikipedia_LM_1024-noWW-drop
mega-encoder-6-v0-MR0.40-1024ctx-noWW
mega-encoder-6-v0-MR0.40-1024ctx-noWW
mega-encoder-6-v0-MR0.40-1024ctx-vN
eval/samples_per_second
eval/samples_per_second
0.511.52train/epoch304050607080
mega-encoder-6-v0-simple_wikipedia_LM_1024-noWW-drop
mega-encoder-6-v0-MR0.40-1024ctx-noWW
mega-encoder-6-v0-MR0.40-1024ctx-noWW
mega-encoder-6-v0-MR0.40-1024ctx-vN
Run set4
﻿
train﻿
Run set4
﻿
﻿
﻿
Run set4
﻿
﻿

Add a comment