upup-ashton-wang-usc

Upup-ashton-wang's group workspace

Group: Tina-DeepScaleR-1.5B-Preview

4192

1764

775

210

503

166

327

1-7

of 7

Timestamps visible

2025-04-09 03:34:11

2025-04-08 20:34:11 - INFO - resee.post_train_hf.callback -

2025-04-09 03:34:11

Cleaned up merged model directory: /home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/grpo_curated_deepscaler/checkpoint-4900-merged

2025-04-09 03:34:13

model.safetensors: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 3.55G/3.55G [01:49<00:00, 32.3MB/s]

2025-04-09 03:34:13

45%|████████████████████████████████████████████████████████████████████████████████▉ | 5004/11000 [52:01:05<127:21:52, 76.47s/it]

2025-04-09 03:35:15

{'loss': 0.0093, 'grad_norm': 1.8354824781417847, 'learning_rate': 6.970456302832137e-07, 'rewards/format_reward': 1.0, 'rewards/accuracy_reward': 0.28125, 'reward': 1.5625, 'reward_std': 0.375, 'completion_length': 1108.34375, 'kl': 0.2320556640625, 'epoch': 0.99}

2025-04-09 03:36:40

{'loss': 0.0128, 'grad_norm': 0.8471603989601135, 'learning_rate': 6.969106622660968e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.21875, 'reward': 1.375, 'reward_std': 0.39433756470680237, 'completion_length': 1627.75, 'kl': 0.31982421875, 'epoch': 0.99}

2025-04-09 03:37:40

{'loss': 0.0119, 'grad_norm': 0.46034130454063416, 'learning_rate': 6.967756794550803e-07, 'rewards/format_reward': 0.96875, 'rewards/accuracy_reward': 0.3125, 'reward': 1.59375, 'reward_std': 0.45683756470680237, 'completion_length': 1408.9375, 'kl': 0.296142578125, 'epoch': 0.99}