Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-04-06 02:19:58
{'loss': 0.0, 'grad_norm': 0.03223605453968048, 'learning_rate': 1.9166708629820998e-07, 'rewards/format_reward': 0.875, 'rewards/accuracy_reward': 0.375, 'reward': 1.625, 'reward_std': 0.875, 'completion_length': 1563.03125, 'kl': 3.82130965590477e-05, 'epoch': 1.69}
2025-04-06 02:21:20
{'loss': 0.0, 'grad_norm': 0.04174388572573662, 'learning_rate': 1.8904456326023027e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.46875, 'reward': 1.875, 'reward_std': 0.8641257882118225, 'completion_length': 1643.21875, 'kl': 2.7611851692199707e-05, 'epoch': 1.7}
2025-04-06 02:23:00
{'loss': 0.0, 'grad_norm': 0.039799999445676804, 'learning_rate': 1.8645597616433e-07, 'rewards/format_reward': 0.78125, 'rewards/accuracy_reward': 0.375, 'reward': 1.53125, 'reward_std': 0.9459633529186249, 'completion_length': 2421.75, 'kl': 7.975846529006958e-06, 'epoch': 1.7}
2025-04-06 02:24:32
{'loss': 0.0, 'grad_norm': 0.04011102765798569, 'learning_rate': 1.8390156838166462e-07, 'rewards/format_reward': 0.71875, 'rewards/accuracy_reward': 0.5625, 'reward': 1.84375, 'reward_std': 0.7586142718791962, 'completion_length': 2087.53125, 'kl': 2.9906630516052246e-05, 'epoch': 1.71}
2025-04-06 02:26:17
{'loss': 0.0, 'grad_norm': 0.03795447200536728, 'learning_rate': 1.8138158006995363e-07, 'rewards/format_reward': 0.65625, 'rewards/accuracy_reward': 0.3125, 'reward': 1.28125, 'reward_std': 0.9459633678197861, 'completion_length': 2554.375, 'kl': 4.461407661437988e-05, 'epoch': 1.71}
2025-04-06 02:28:05
{'loss': 0.0, 'grad_norm': 0.048637595027685165, 'learning_rate': 1.7889624815090195e-07, 'rewards/format_reward': 0.6875, 'rewards/accuracy_reward': 0.46875, 'reward': 1.625, 'reward_std': 1.0632034242153168, 'completion_length': 2528.1875, 'kl': 1.0527670383453369e-05, 'epoch': 1.72}
2025-04-06 02:29:26
{'loss': 0.0, 'grad_norm': 0.04161066189408302, 'learning_rate': 1.7644580628792455e-07, 'rewards/format_reward': 0.90625, 'rewards/accuracy_reward': 0.46875, 'reward': 1.84375, 'reward_std': 0.6540063619613647, 'completion_length': 1685.34375, 'kl': 5.0902366638183594e-05, 'epoch': 1.73}