LaTeX-OCR Training Report
Đây là bản báo cáo về quá trình training model LaTeX-OCR trong thời gian qua.
Created on October 3|Last edited on October 22
Comment
Thông số về quá trình train:
- Epochs: 126
- Step per epoch: 16296
- Thời gian train/epoch: dao động từ 1h10p đến 1h30p tuỳ tình hình
- Tổng thời gian train (liên tục): khoảng 150-170h
- Tổng thời gian train thực tế: Khoảng 2 tuần
Đánh giá model của Lukas Blecher:
BLEU score Edit Distance Token Accuracy
0.88 0.10 0.60
Biểu đồ thông số loss trên tập train
(Càng thấp càng tốt)
Run: mixed
1
Biểu đồ thông số các metrics được sử dụng trên tập valid
BLEU Score: Càng cao càng tốt
Edit Distance: Càng thấp càng tốt
Token Accuracy: Càng cao càng tốt
Đánh giá model hiện tại trên tập dữ liệu Crhome_math và pdfmath
Số lượng file có trong tập test: 30637 files
Hiện tại mới chỉ test được trên 24819 files, vì giới hạn thời gian chạy phần cứng của Colab
Sắp tới em sẽ test trên toàn bộ 30k files
BLEU score Edit Distance Token Accuracy
0.88 0.101 0.6281
Bi���u đồ thông số các metrics được sử dụng trên tập test
Run set
42
- Đánh giá sai số có thể chấp nhận được khi predict trên dữ liệu test
Về cơ bản thì trong quá trình predict, model có xu hướng predict sai ở các notation trong LaTeX code (có thể bị dư, thiếu hoặc sai một vài chỗ).
Tuy nhiên theo cá nhân em đánh giá thì với mức sai số trên đây có thể tạm chấp nhận được.
Add a comment