aflah

Aflah's workspace

Runs

160

128

100

1-2

of 2

seq_length: 2048, dataset: FW_Edu, model: pythia, pos_emb: none, rotary_pct: 1, seed: 1234, lr: 0.0004, use_qk_layernorm: false, pipe_parallel_size: 0, log_grad_norm: false

seq_length: 2048, dataset: FW_Edu, model: pythia, pos_emb: none, rotary_pct: 1, seed: 1234, lr: 0.0004, use_qk_layernorm: false, pipe_parallel_size: 0, log_grad_norm: true