kastan

Kastan's group workspace

Group: Aug-05__13:18

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 24s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 27s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 53s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 53s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 55s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 27s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 56s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

45s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

45s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

44s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

44s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 56s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 56s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 26s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

39s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 54s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 56s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 55s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

2m 27s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:18

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513872

TP=4

WORLD_SIZE=32

3y ago

1m 4s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

1-20

of 64