Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-04-06 02:19:43
{'loss': 0.0, 'grad_norm': 0.033781711012125015, 'learning_rate': 2.0249155926726886e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.53125, 'reward': 2.0, 'reward_std': 0.9136751294136047, 'completion_length': 2252.59375, 'kl': 2.516806125640869e-05, 'epoch': 1.67}
2025-04-06 02:21:20
{'loss': 0.0, 'grad_norm': 0.019820984452962875, 'learning_rate': 1.99735789634128e-07, 'rewards/format_reward': 0.84375, 'rewards/accuracy_reward': 0.4375, 'reward': 1.71875, 'reward_std': 0.7379203587770462, 'completion_length': 2060.78125, 'kl': 1.3388693332672119e-05, 'epoch': 1.67}
2025-04-06 02:22:56
{'loss': 0.0, 'grad_norm': 0.033393848687410355, 'learning_rate': 1.9701295078619094e-07, 'rewards/format_reward': 0.75, 'rewards/accuracy_reward': 0.40625, 'reward': 1.5625, 'reward_std': 1.058012694120407, 'completion_length': 2147.5, 'kl': 2.055056393146515e-05, 'epoch': 1.68}
2025-04-06 02:24:42
{'loss': 0.0, 'grad_norm': 0.02203182317316532, 'learning_rate': 1.9432329871655836e-07, 'rewards/format_reward': 0.53125, 'rewards/accuracy_reward': 0.15625, 'reward': 0.84375, 'reward_std': 0.8016257882118225, 'completion_length': 2755.65625, 'kl': 2.6203691959381104e-05, 'epoch': 1.68}
2025-04-06 02:26:11
{'loss': 0.0, 'grad_norm': 0.02671114355325699, 'learning_rate': 1.9166708629820998e-07, 'rewards/format_reward': 0.875, 'rewards/accuracy_reward': 0.4375, 'reward': 1.75, 'reward_std': 0.8112945705652237, 'completion_length': 1834.125, 'kl': 2.0042061805725098e-05, 'epoch': 1.69}
2025-04-06 02:27:31
{'loss': 0.0, 'grad_norm': 0.02375987358391285, 'learning_rate': 1.8904456326023027e-07, 'rewards/format_reward': 0.9375, 'rewards/accuracy_reward': 0.46875, 'reward': 1.875, 'reward_std': 0.625, 'completion_length': 1464.28125, 'kl': 2.0623207092285156e-05, 'epoch': 1.7}
2025-04-06 02:29:04
{'loss': 0.0, 'grad_norm': 0.02700086683034897, 'learning_rate': 1.8645597616433e-07, 'rewards/format_reward': 0.90625, 'rewards/accuracy_reward': 0.375, 'reward': 1.65625, 'reward_std': 1.0374697148799896, 'completion_length': 2221.125, 'kl': 1.7955899238586426e-05, 'epoch': 1.7}