Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-04-06 02:20:05
{'loss': 0.0001, 'grad_norm': 0.11355092376470566, 'learning_rate': 2.2268186129212807e-07, 'rewards/format_reward': 0.875, 'rewards/accuracy_reward': 0.625, 'reward': 2.125, 'reward_std': 0.8273502439260483, 'completion_length': 1968.90625, 'kl': 0.003017425537109375, 'epoch': 1.63}
2025-04-06 02:21:26
{'loss': 0.0001, 'grad_norm': 0.10852237790822983, 'learning_rate': 2.1970300093244414e-07, 'rewards/format_reward': 0.875, 'rewards/accuracy_reward': 0.625, 'reward': 2.125, 'reward_std': 1.0773502886295319, 'completion_length': 1843.53125, 'kl': 0.00302886962890625, 'epoch': 1.63}
2025-04-06 02:23:03
{'loss': 0.0001, 'grad_norm': 0.12270689010620117, 'learning_rate': 2.16755194100948e-07, 'rewards/format_reward': 0.875, 'rewards/accuracy_reward': 0.625, 'reward': 2.125, 'reward_std': 0.8069581538438797, 'completion_length': 1873.71875, 'kl': 0.00347137451171875, 'epoch': 1.64}
2025-04-06 02:24:42
{'loss': 0.0001, 'grad_norm': 0.10646822303533554, 'learning_rate': 2.138387179415519e-07, 'rewards/format_reward': 0.90625, 'rewards/accuracy_reward': 0.625, 'reward': 2.15625, 'reward_std': 0.7068375647068024, 'completion_length': 1579.75, 'kl': 0.0036067962646484375, 'epoch': 1.64}
2025-04-06 02:26:06
{'loss': 0.0002, 'grad_norm': 0.16377213597297668, 'learning_rate': 2.1095384665255267e-07, 'rewards/format_reward': 0.78125, 'rewards/accuracy_reward': 0.375, 'reward': 1.53125, 'reward_std': 0.9955126941204071, 'completion_length': 1754.03125, 'kl': 0.0061798095703125, 'epoch': 1.65}
2025-04-06 02:27:50
{'loss': 0.0001, 'grad_norm': 0.12643642723560333, 'learning_rate': 2.0810085146085282e-07, 'rewards/format_reward': 0.6875, 'rewards/accuracy_reward': 0.53125, 'reward': 1.75, 'reward_std': 0.8608439266681671, 'completion_length': 2409.78125, 'kl': 0.0027618408203125, 'epoch': 1.66}
2025-04-06 02:29:32
{'loss': 0.0001, 'grad_norm': 0.08833925426006317, 'learning_rate': 2.0528000059645995e-07, 'rewards/format_reward': 0.90625, 'rewards/accuracy_reward': 0.65625, 'reward': 2.21875, 'reward_std': 0.8125, 'completion_length': 1985.875, 'kl': 0.002948760986328125, 'epoch': 1.66}