upup-ashton-wang-usc

Upup-ashton-wang's group workspace

Group: Tina-LIMR-5e-7-lr

1633

1-1

of 1

Timestamps visible

2025-04-01 18:04:31

2025-04-01 11:04:31 - INFO - resee.post_train_hf.callback -

2025-04-01 18:04:31

Cleaned up merged model directory: /project/neiswang_1391/shangsha/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_lima/checkpoint-240-merged

2025-04-01 18:04:34

model.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.55G/3.55G [01:43<00:00, 34.5MB/s]

2025-04-01 18:04:34

70%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌ | 253/360 [8:46:33<3:38:25, 122.48s/it]

2025-04-01 18:06:08

{'loss': 0.0, 'grad_norm': 0.0519869327545166, 'learning_rate': 1.6439463318754165e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.59375, 'reward': 2.125, 'reward_std': 1.0193375647068024, 'completion_length': 1985.0625, 'kl': 2.8699636459350586e-05, 'epoch': 1.45}

2025-04-01 18:07:34

{'loss': 0.0, 'grad_norm': 0.047083158046007156, 'learning_rate': 1.6250000000000006e-07, 'rewards/format_reward': 0.8125, 'rewards/accuracy_reward': 0.4375, 'reward': 1.6875, 'reward_std': 0.9847894012928009, 'completion_length': 1840.46875, 'kl': 2.6658177375793457e-05, 'epoch': 1.45}

2025-04-01 18:09:16

{'loss': 0.0, 'grad_norm': 0.05392458289861679, 'learning_rate': 1.6061594372333257e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.4375, 'reward': 1.8125, 'reward_std': 1.1141257882118225, 'completion_length': 1734.53125, 'kl': 3.504753112792969e-05, 'epoch': 1.46}