morgan

Morgan's workspace

Runs

train/loss

val/loss_prosecraft_val_ft

tokens_processed

6d 20h 4m 9s

Finished

morgan

0.00002

2.15559

2.22871

43120

0.9

2830827520

5d 23h 30m 12s

Crashed

morgan

0.00001

2.17868

2.22513

43120

0.9

2478768128

22m 1s

Finished

morgan

0.00001

42895

0.9

21m 41s

Finished

morgan

0.00001

42895

0.9

23m 14s

Finished

morgan

0.00001

42895

21m 24s

Finished

morgan

0.00001

42895

21m 52s

Failed

morgan

0.00001

42895

23m 43s

Crashed

morgan

0.00001

42895

24m 4s

Crashed

morgan

0.00001

42895

22m 4s

Finished

morgan

0.00001

42895

19d 16h 37m 32s

Finished

morgan

0.00001

2.21221

2.29307

20000

1339949056

5d 12h

Crashed

morgan

0.00001

2.21777

2.38704

42895

23d 3h 7m 9s

Finished

morgan

0.00001

1.92378

814

18h 28m 13s

Finished

morgan

0.00001

0.10695

7700

1h 27m 6s

Killed

morgan

0.00001

2.65913

7700

18h 32m 3s

Finished

morgan

0.00001

0.089045

7410

2d 19h 13m 3s

Finished

morgan

0.00001

2.10686

18450

16h 13s

Finished

morgan

0.00001

0.63784

3510

2h 40m 32s

Finished

morgan

0.00005

2.87884

290

4d 3h 7m 13s

Crashed

morgan

0.000025

2.21015

35438

comment

val_set.prosecraft_val_ft

val_set.prosecraft_val_old

noise/B_simple

noise/G_noise

noise/G_noise_avg

noise/S_noise

noise/S_noise_avg

sequences_processed

4y ago

prosecraft-storage

1000

200 step warmup followed by linear decay - linear_onecycle_schedule(total_steps, lr, 0.0046, 1.0, 100.0, 10000). Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

1.0000e-8

[]

5000

prosecraft_linear

50400

prosecraft_linear

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

prompts/prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

200

0.1

2408.3673

0.016843

0.004553

10.89121

10.96529

1382240

4y ago

prosecraft-storage

1000

Continuing training from prosecraft_ft_resumed. Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

1.0000e-10

[]

5000

prosecraft_resumed_ft2

50400

prosecraft_ft_resumed2

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

prompts/prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

0.1

1539.2122

0.017511

0.0086259

12.73311

13.27715

1210336

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_temp0.9_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_temp1.0_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prompt_prosecraft_ft_resumed_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prosecraft_ft_resumed_slim_20001

layernorm

rotary

prompts.csv

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

500

Resuming, training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft_resumed

50400

prosecraft_ft_resumed

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

21000

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

0.1

1371.90955

0.024784

0.0092266

13.65221

12.6581

654272

4y ago

prosecraft-storage

500

Training using the shuffled train dataset, with the old and new val datasets, 1,382,217 tokens / 32 batch size == 43195 steps

4096

0.000001

[]

5000

prosecraft_ft

50400

prosecraft_ft

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

43195

prosecraft_ft.train.index

2000

500

prosecraft_ft.val.index

prosecraft.val.index

300

0.1

4y ago

prosecraft-storage

1 epoch, new fine-tuned train dataset, bs 16 (7800 steps) training, 13651 sequences / 16 == 854)

4096

0.000001

[]

160

prosecraft_samples_ft

50400

samples_ft_16bs_1e_1e-5

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

854

samples_ft.train.index

2000

samples.val.index

0.1

4y ago

prosecraft-storage

200

10 epochs with 0.2 weight decay, bs 16 (7800 steps) training, 12488 sequences / 16 == 780)

4096

0.000001

[]

600

prosecraft_samples

50400

samples_wd_16bs_10e_1e-5

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

7800

samples.train.index

2000

200

samples.val.index

100

0.2

4y ago

prosecraft-storage

200

10 epochs with 0.2 weight decay, bs 16 (7800 steps) training, 12488 sequences / 16 == 780)

4096

0.000001

[]

600

mesh_jax_pile_6B_rotary

50400

samples_wd_16bs_10e_1e-5

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

7800

samples.train.index

2000

200

samples.val.index

100

0.2

4y ago

prosecraft-storage

200

10 epochs with bs 16 (7800 steps) training, 12488 sequences / 16 == 780)

4096

0.000005

[]

600

mesh_jax_pile_6B_rotary

50400

samples_16bs_10e_1e-5

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

7800

samples.train.index

2000

200

samples.val.index

390

0.1

4y ago

prosecraft-storage

1000

Resumed from step 28k

4096

0.000001

[]

3000

mesh_jax_pile_6B_rotary

50400

resumed_28k_prosecraft_GPT3

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

18650

prosecraft.train.index

2000

500

prosecraft.val.index

200

0.1

4y ago

prosecraft-storage

200

10 epochs (3900 steps) training, 12488 sequences / 32 == 390)

4096

0.000005

[]

600

mesh_jax_pile_6B_rotary

50400

samples_10e_3900s_1e-5

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

3900

samples.train.index

2000

200

samples.val.index

390

0.1

4y ago

prosecraft-storage

100

1 epoch (390 steps) training, 12488 sequences / 32 == 390)

4096

0.000005

[]

300

mesh_jax_pile_6B_rotary

50400

prosecraft_samples_GPT3_6B

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

390

samples.train.index

2000

samples.val.index

100

0.1

4y ago

prosecraft-storage

1000

4096

0.0000025

[]

3000

mesh_jax_pile_6B_rotary

50400

prosecraft_GPT3_6B_pile_rotary

layernorm

["optax._src.combine.chain.<locals>.init_fn","optax._src.combine.chain.<locals>.update_fn"]

rotary

2048

37303

prosecraft.train.index

2000

1000

prosecraft.val.index

1865

0.1

1-20

of 23