upup-ashton-wang-usc

Upup-ashton-wang's group workspace

Group: Tina-LIMR-5e-6-lr

1594

1-1

of 1

Timestamps visible

2025-04-08 19:06:21

[2025-04-08 12:06:21,730] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_lima_large_lr_ablation/checkpoint-300/global_step300/mp_rank_00_model_states.pt.

2025-04-08 19:06:21

[2025-04-08 12:06:21,732] [INFO] [torch_checkpoint_engine.py:21:save] [Torch] Saving /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_lima_large_lr_ablation/checkpoint-300/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt...

2025-04-08 19:06:21

[2025-04-08 12:06:21,946] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_lima_large_lr_ablation/checkpoint-300/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.

2025-04-08 19:06:21

[2025-04-08 12:06:21,947] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_lima_large_lr_ablation/checkpoint-300/global_step300/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt

2025-04-08 19:06:21

[2025-04-08 12:06:21,947] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step300 is ready now!

2025-04-08 19:08:03

84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████ | 301/360 [9:53:31<2:43:59, 166.77s/it]

2025-04-08 19:08:03

{'loss': 0.0005, 'grad_norm': 0.09366859495639801, 'learning_rate': 8.582525548045184e-07, 'rewards/format_reward': 0.6875, 'rewards/accuracy_reward': 0.375, 'reward': 1.4375, 'reward_std': 1.0806321203708649, 'completion_length': 2475.96875, 'kl': 0.0128173828125, 'epoch': 1.74}