kastan

Kastan's group workspace

Group: Aug-05__14:16

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 37s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

28m

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 34s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 53s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 44s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 58s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 51s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 45s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 44s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

28m 1s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 51s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 37s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 35s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 53s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 53s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 59s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 59s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 52s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 52s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__14:16

BATCH_SIZE1280

NUM_EPOCHS=60

NUM_MICRO_BATCHES=8

SLURM=513930

TP=16

WORLD_SIZE=32

3y ago

27m 55s

1280

0.00015

./gpt2_2.5d_tp16_bs1280_lr0.00015_accum1_clip_grad1.0/

1024

1280

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

false

torch.bfloat16

1024

50304

torch.bfloat16

0.00015

0.01

titans.model.quant_gpt.quant_gpt.quant_gpt2_8B

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

1-20

of 32