kastan

Kastan's group workspace

Group: Aug-05__13:14

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 11s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 2s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 11s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 11s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 3s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 12s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

28s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

28s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

46s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 3s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 12s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 3s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 4s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Failed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

51s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 9s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 4s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 11s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 4s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 3s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

Crashed

kastan

Aug-05__13:14

BATCH_SIZE32

MICRO_BATCH_SIZE=4

NUM_EPOCHS=4

NUM_MICRO_BATCHES=8

PP=2

SLURM=513867

TP=4

WORLD_SIZE=64

3y ago

3m 1s

0.00015

./gpt2_2.5d_tp4_bs32_lr0.00015_accum2_clip_grad1.0/

1024

50304

0.01

col_ai_quant

/u/kastanday/LLM-Distributed-Quantization/datasets/small-gpt-dataset.json

AMP_TYPE.NAIVE

titans.model.gpt.gpt.gpt2_8B

titans.model.gpt.gpt.gpt2_xl

false

1024

50304

0.00015

0.01

2.5d

titans.loss.lm_loss.gpt_lmloss.GPTLMLoss

1-20

of 64