Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-04-08 21:06:42
{'loss': 0.0601, 'grad_norm': 2.1741280555725098, 'learning_rate': 6.320574690227991e-07, 'rewards/len_reward': -0.11485928483307362, 'rewards/accuracy_reward': 0.1875, 'reward': 0.26014072820544243, 'reward_std': 0.5233195945620537, 'completion_length': 2962.34375, 'kl': 1.50439453125, 'epoch': 1.0}
2025-04-08 21:08:31
{'loss': 0.0612, 'grad_norm': 3.64225435256958, 'learning_rate': 6.31851532158802e-07, 'rewards/len_reward': -0.15825379081070423, 'rewards/accuracy_reward': 0.25, 'reward': 0.3417462222278118, 'reward_std': 0.7237999103963375, 'completion_length': 2543.90625, 'kl': 1.5335693359375, 'epoch': 1.0}
2025-04-08 21:10:22
{'loss': 0.0283, 'grad_norm': 2.2980620861053467, 'learning_rate': 6.316455775643857e-07, 'rewards/len_reward': -0.12126369215548038, 'rewards/accuracy_reward': 0.125, 'reward': 0.12873630598187447, 'reward_std': 0.5584748089313507, 'completion_length': 3101.21875, 'kl': 0.7080078125, 'epoch': 1.0}
2025-04-08 21:12:14
{'loss': 0.0197, 'grad_norm': 1.2904961109161377, 'learning_rate': 6.314396052841632e-07, 'rewards/len_reward': -0.12805058620870113, 'rewards/accuracy_reward': 0.125, 'reward': 0.12194940820336342, 'reward_std': 0.5908886045217514, 'completion_length': 3229.96875, 'kl': 0.4921875, 'epoch': 1.0}
2025-04-08 21:14:05
{'loss': 0.0129, 'grad_norm': 0.9411824345588684, 'learning_rate': 6.31233615362752e-07, 'rewards/len_reward': -0.21355446428060532, 'rewards/accuracy_reward': 0.1875, 'reward': 0.1614455282688141, 'reward_std': 0.5972528606653214, 'completion_length': 3127.125, 'kl': 0.32147216796875, 'epoch': 1.0}
2025-04-08 21:15:56
{'loss': 0.0229, 'grad_norm': 1.278078556060791, 'learning_rate': 6.310276078447726e-07, 'rewards/len_reward': -0.12096713669598103, 'rewards/accuracy_reward': 0.0625, 'reward': 0.0040328651666641235, 'reward_std': 0.5001259967684746, 'completion_length': 3252.09375, 'kl': 0.5712890625, 'epoch': 1.0}
2025-04-08 21:17:46
{'loss': 0.024, 'grad_norm': 1.638916254043579, 'learning_rate': 6.308215827748498e-07, 'rewards/len_reward': -0.20249857008457184, 'rewards/accuracy_reward': 0.21875, 'reward': 0.23500144109129906, 'reward_std': 0.6478919386863708, 'completion_length': 2915.375, 'kl': 0.5989990234375, 'epoch': 1.0}