LaTeX-OCR Training on WeAI's Data

Created on October 10|Last edited on October 13
Comment
﻿
Data dùng để training model:Train set: 64.519 images
Validation set: 19.000 images
Test set: 15.000 images
Labels: 98.519 lines 
Tất cả các ảnh được preprocess bằng cách padding ảnh trắng cho 4 phía của bức ảnh sao cho kích thước của bức ảnh trở thành bội số của 16.
Quá trình training:
Ngày 1:Tổng thời gian train: (17 epochs, khoảng 6h)
Model tốt nhất: im2latex_weai_e09_step6210.pth
Kết quả đánh giá trên validation set
Loss		BLEU score		Edit Distance	Token Accuracy
0.6334		0.2804	         	0.485	                0.3115
Ngày 2:Tổng thời gian train: (56 epochs, khoảng 12h)
Model tốt nhất: im2latex_weai_e50_step2110.pth
Kết quả đánh giá trên validation set
Loss		BLEU score		Edit Distance	Token Accuracy
0.07832		0.7228	         	0.1797	                0.6367
Biểu đồ train/loss theo thời gian training﻿
Run: im2latex_weai1
﻿
Biểu đồ thông số các metric theo thời gian training*Các thông số được kỳ vọng như sau:
BLEU Score, Token Accuracy: càng cao càng tốt
Edit Distance: Càng thấp càng tốt
﻿
﻿
Kết quả evaluate model trên data của WeAIBLEU score		Edit Distance	Token Accuracy
0.684	         	0.187                      0.609
﻿
Add a comment