upup-ashton-wang-usc

Upup-ashton-wang's group workspace

Group: Tina-Open-RS1

588

2672

470

1-3

of 3

Timestamps visible

2025-04-09 10:03:16

[2025-04-09 03:03:16,273] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_open_rs1/checkpoint-2400/global_step2400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.

2025-04-09 10:03:16

[2025-04-09 03:03:16,274] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_open_rs1/checkpoint-2400/global_step2400/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt

2025-04-09 10:03:16

[2025-04-09 03:03:16,274] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step2400 is ready now!

2025-04-09 10:04:48

48%|██████████████████████████████████████████████████████████████████████████████████████ | 2403/5000 [10:49:59<97:05:38, 134.59s/it]

2025-04-09 10:04:48

{'loss': 0.0101, 'grad_norm': 0.7910968661308289, 'learning_rate': 6.585599991223607e-07, 'rewards/format_reward': 0.96875, 'rewards/accuracy_reward': 0.0625, 'reward': 1.09375, 'reward_std': 0.20683756470680237, 'completion_length': 1749.21875, 'kl': 0.25115966796875, 'epoch': 1.03}

2025-04-09 10:06:25

{'loss': 0.0175, 'grad_norm': 0.9645588397979736, 'learning_rate': 6.582550923140462e-07, 'rewards/format_reward': 0.96875, 'rewards/accuracy_reward': 0.28125, 'reward': 1.53125, 'reward_std': 0.33183756470680237, 'completion_length': 2272.9375, 'kl': 0.43798828125, 'epoch': 1.03}

2025-04-09 10:08:08

{'loss': 0.0167, 'grad_norm': 2.06596040725708, 'learning_rate': 6.57950132743515e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.1875, 'reward': 1.3125, 'reward_std': 0.4891257882118225, 'completion_length': 2065.3125, 'kl': 0.41796875, 'epoch': 1.03}