Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-04-06 02:19:24
{'loss': 0.0, 'grad_norm': 0.024810926988720894, 'learning_rate': 1.9701295078619094e-07, 'rewards/format_reward': 0.84375, 'rewards/accuracy_reward': 0.34375, 'reward': 1.53125, 'reward_std': 1.0279518067836761, 'completion_length': 2104.90625, 'kl': 4.0143728256225586e-05, 'epoch': 1.68}
2025-04-06 02:21:10
{'loss': 0.0, 'grad_norm': 0.014393889345228672, 'learning_rate': 1.9432329871655836e-07, 'rewards/format_reward': 0.625, 'rewards/accuracy_reward': 0.34375, 'reward': 1.3125, 'reward_std': 0.6830127090215683, 'completion_length': 2609.65625, 'kl': 3.409385681152344e-05, 'epoch': 1.68}
2025-04-06 02:22:51
{'loss': 0.0, 'grad_norm': 0.015398439951241016, 'learning_rate': 1.9166708629820998e-07, 'rewards/format_reward': 0.75, 'rewards/accuracy_reward': 0.25, 'reward': 1.25, 'reward_std': 0.75, 'completion_length': 1885.59375, 'kl': 5.137920379638672e-05, 'epoch': 1.69}
2025-04-06 02:24:17
{'loss': 0.0, 'grad_norm': 0.021695438772439957, 'learning_rate': 1.8904456326023027e-07, 'rewards/format_reward': 0.84375, 'rewards/accuracy_reward': 0.375, 'reward': 1.59375, 'reward_std': 0.9944581538438797, 'completion_length': 1714.0, 'kl': 1.621246337890625e-05, 'epoch': 1.7}
2025-04-06 02:26:00
{'loss': 0.0, 'grad_norm': 0.016597704961895943, 'learning_rate': 1.8645597616433e-07, 'rewards/format_reward': 0.71875, 'rewards/accuracy_reward': 0.28125, 'reward': 1.28125, 'reward_std': 0.8016257882118225, 'completion_length': 2194.21875, 'kl': 2.3633241653442383e-05, 'epoch': 1.7}
2025-04-06 02:27:34
{'loss': 0.0, 'grad_norm': 0.02073809877038002, 'learning_rate': 1.8390156838166462e-07, 'rewards/format_reward': 0.71875, 'rewards/accuracy_reward': 0.40625, 'reward': 1.53125, 'reward_std': 1.1336142718791962, 'completion_length': 2111.96875, 'kl': 2.1085143089294434e-05, 'epoch': 1.71}
2025-04-06 02:29:18
{'loss': 0.0, 'grad_norm': 0.019463514909148216, 'learning_rate': 1.8138158006995363e-07, 'rewards/format_reward': 0.71875, 'rewards/accuracy_reward': 0.40625, 'reward': 1.53125, 'reward_std': 0.8629203587770462, 'completion_length': 2393.09375, 'kl': 3.941357135772705e-05, 'epoch': 1.71}