upup-ashton-wang-usc

Upup-ashton-wang's group workspace

Group: Tina-Open-RS3-DrGRPO

1658

1-1

of 1

Timestamps visible

2025-04-01 09:10:07

[2025-04-01 02:10:07,972] [INFO] [torch_checkpoint_engine.py:23:save] [Torch] Saved /project/neiswang_1391/shangsha/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/drgrpo_curated_open_rs/checkpoint-850/global_step850/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt.

2025-04-01 09:10:07

[2025-04-01 02:10:07,974] [INFO] [engine.py:3645:_save_zero_checkpoint] zero checkpoint saved /project/neiswang_1391/shangsha/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/drgrpo_curated_open_rs/checkpoint-850/global_step850/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt

2025-04-01 09:10:07

[2025-04-01 02:10:07,975] [INFO] [torch_checkpoint_engine.py:33:commit] [Torch] Checkpoint global_step850 is ready now!

2025-04-01 09:12:18

57%|██████████████████████████████████████████████████████████████████████████████████████████████████████▎ | 853/1500 [31:51:55<23:40:05, 131.69s/it]Traceback (most recent call last):

2025-04-01 09:12:18

{'loss': 0.0255, 'grad_norm': 0.5954849123954773, 'learning_rate': 5.227894729228534e-07, 'rewards/format_reward': 0.5000000149011612, 'rewards/cosine_scaled_reward': -0.18286637589335442, 'reward': 0.13426725566387177, 'reward_std': 0.5475199744105339, 'completion_length': 2469.854278564453, 'kl': 0.6363525390625, 'epoch': 0.97}

2025-04-01 09:14:29

{'loss': 0.0336, 'grad_norm': 0.7464556097984314, 'learning_rate': 5.21744266211809e-07, 'rewards/format_reward': 0.5000000223517418, 'rewards/cosine_scaled_reward': -0.1288183517754078, 'reward': 0.24236331321299076, 'reward_std': 0.9194058179855347, 'completion_length': 2600.291748046875, 'kl': 0.8388671875, 'epoch': 0.97}

2025-04-01 09:16:35

{'loss': 0.0142, 'grad_norm': 0.5837233066558838, 'learning_rate': 5.206992125173837e-07, 'rewards/format_reward': 0.8125000149011612, 'rewards/cosine_scaled_reward': -0.02615864109247923, 'reward': 0.7601827681064606, 'reward_std': 0.5379091948270798, 'completion_length': 2010.1875610351562, 'kl': 0.35498046875, 'epoch': 0.97}