Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-03-30 06:25:17
{'loss': 0.039, 'grad_norm': 2.4978480339050293, 'learning_rate': 1.7929156267859723e-07, 'rewards/format_reward': 0.3541666679084301, 'rewards/cosine_scaled_reward': -0.2035317588597536, 'reward': -0.052896834909915924, 'reward_std': 0.6345586106181145, 'completion_length': 2583.9375610351562, 'kl': 0.9765625, 'epoch': 1.42}
2025-03-30 06:27:33
{'loss': 0.042, 'grad_norm': 1.4459542036056519, 'learning_rate': 1.7869892577476722e-07, 'rewards/format_reward': 0.2916666716337204, 'rewards/cosine_scaled_reward': -0.21154458448290825, 'reward': -0.1314224861562252, 'reward_std': 0.592581681907177, 'completion_length': 3048.4375610351562, 'kl': 1.0498046875, 'epoch': 1.42}
2025-03-30 06:29:19
{'loss': 0.0367, 'grad_norm': 3.568664073944092, 'learning_rate': 1.781082996215889e-07, 'rewards/format_reward': 0.6875000055879354, 'rewards/cosine_scaled_reward': -0.2028635274618864, 'reward': 0.28177300095558167, 'reward_std': 0.6623362600803375, 'completion_length': 1840.3333892822266, 'kl': 0.917572021484375, 'epoch': 1.42}
2025-03-30 06:31:26
{'loss': 0.0606, 'grad_norm': 2.097348213195801, 'learning_rate': 1.7751968741754976e-07, 'rewards/format_reward': 0.625, 'rewards/cosine_scaled_reward': -0.22497155517339706, 'reward': 0.17505692411214113, 'reward_std': 0.6869826912879944, 'completion_length': 2099.2709045410156, 'kl': 1.51171875, 'epoch': 1.42}
2025-03-30 06:33:19
{'loss': 0.0399, 'grad_norm': 1.6066977977752686, 'learning_rate': 1.7693309235023127e-07, 'rewards/format_reward': 0.6250000149011612, 'rewards/cosine_scaled_reward': -0.07429768145084381, 'reward': 0.4764046370983124, 'reward_std': 0.4940529391169548, 'completion_length': 1988.979263305664, 'kl': 0.995361328125, 'epoch': 1.42}
2025-03-30 06:35:29
{'loss': 0.0461, 'grad_norm': 1.666879415512085, 'learning_rate': 1.7634851759629122e-07, 'rewards/format_reward': 0.5000000111758709, 'rewards/cosine_scaled_reward': -0.14586186408996582, 'reward': 0.2082762811332941, 'reward_std': 0.577808290719986, 'completion_length': 2450.3750610351562, 'kl': 1.1533203125, 'epoch': 1.42}