Skip to main content

Upup-ashton-wang's group workspace

Timestamps visible
2025-05-09 23:12:28
{'loss': 0.0004, 'grad_norm': 0.09649582207202911, 'learning_rate': 4.987984459364822e-07, 'rewards/format_reward': 0.5625, 'rewards/cosine_scaled_reward': -0.09620670974254608, 'reward': 0.3700866065919399, 'reward_std': 0.8290826305747032, 'completion_length': 3084.4584350585938, 'kl': 0.01090240478515625, 'epoch': 1.0}
2025-05-09 23:13:02
2025-05-09 16:13:02 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:13:02
2025-05-09 16:13:02 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:13:41
2025-05-09 16:13:41 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:13:41
2025-05-09 16:13:41 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:14:17
2025-05-09 16:14:17 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:14:17
2025-05-09 16:14:17 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:14:55
2025-05-09 16:14:55 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:14:55
2025-05-09 16:14:55 - INFO - accelerate.accelerator - The used dataset had no length, returning gathered tensors. You should drop the remainder yourself.
2025-05-09 23:14:58
{'loss': 0.0004, 'grad_norm': 0.06440811604261398, 'learning_rate': 4.977581886436462e-07, 'rewards/format_reward': 0.6250000149011612, 'rewards/cosine_scaled_reward': -0.04225189611315727, 'reward': 0.5404962338507175, 'reward_std': 0.9150424301624298, 'completion_length': 3439.2083740234375, 'kl': 0.0108489990234375, 'epoch': 1.0}