Skip to main content

Neel's group workspace

Timestamps visible
2023-09-04 04:11:55
[09/04/2023 04:11:54 INFO]: Saving the state of AcceleratedOptimizer to /fsx/awesome/DPT/outputs/model_.pth/custom_checkpoint_1.pkl
2023-09-04 04:11:55
[09/04/2023 04:11:54 INFO]: Saving the state of DistributedDataParallel to /fsx/awesome/DPT/outputs/model_.pth/custom_checkpoint_2.pkl
2023-09-04 04:16:49
Increasing lr to 24301.393485289576
2023-09-04 04:16:49
Sample input: 011+100 | Sample pred: 111 | Sample answer: 111
2023-09-04 04:16:49
Train metric (MAE): 1.8768020026982413e-06
2023-09-04 04:16:49
Train elementwise accuracy: 99.99981231982703%
2023-09-04 04:16:49
Train sequence/batch accuracy: 98.65470852017937%
2023-09-04 04:17:03
DEBUG: RETURNING best_val_acc: 96.54000091552734 | best_val_iteration: 10 | ret_acc: {10: 96.54000091552734}
2023-09-04 04:17:03
DEBUG: INCORRECT VAL/TEST PREDICTION: input: tensor([0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 0, 1, 3, 0, 1, 0, 1, 0, 0, 0, 0, 0, 1,
2023-09-04 04:17:03
        0, 0, 1, 2, 2, 2, 2, 2], device='cuda:0', dtype=torch.int32) | output: tensor([1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2023-09-04 04:17:03
        2, 2, 2, 2, 2, 2, 2, 2], device='cuda:0', dtype=torch.int32) | target: tensor([1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
2023-09-04 04:17:03
        2, 2, 2, 2, 2, 2, 2, 2], device='cuda:0')
2023-09-04 04:17:05
Errors Distribution: Counter({0: 1})
2023-09-04 04:17:05
[09/04/2023 04:17:03 INFO]: Training loss at epoch 285: 0.0023774141838580946
2023-09-04 04:17:05
[09/04/2023 04:17:03 INFO]: Training accuracy at epoch 285: 0.4404228058936579
2023-09-04 04:17:05
[09/04/2023 04:17:03 INFO]: Val accuracy at epoch 285: 96.54000091552734 | @ 10 iters
2023-09-04 04:17:05
  0%|          | 0/223 [00:00<?, ?it/s]