Skip to main content

LaTeX-OCR Training Report

Đây là bản báo cáo về quá trình training model LaTeX-OCR trong thời gian qua.
Created on October 3|Last edited on October 22

Thông số về quá trình train:

- Epochs: 126
- Step per epoch: 16296
- Thời gian train/epoch: dao động từ 1h10p đến 1h30p tuỳ tình hình
- Tổng thời gian train (liên tục): khoảng 150-170h
- Tổng thời gian train thực tế: Khoảng 2 tuần


Đánh giá model của Lukas Blecher:

BLEU score Edit Distance Token Accuracy
0.88 0.10 0.60

Biểu đồ thông số loss trên tập train

(Càng thấp càng tốt)

Run: mixed
1


Biểu đồ thông số các metrics được sử dụng trên tập valid

BLEU Score: Càng cao càng tốt
Edit Distance: Càng thấp càng tốt
Token Accuracy: Càng cao càng tốt



Đánh giá model hiện tại trên tập dữ liệu Crhome_math và pdfmath

Số lượng file có trong tập test: 30637 files
Hiện tại mới chỉ test được trên 24819 files, vì giới hạn thời gian chạy phần cứng của Colab
Sắp tới em sẽ test trên toàn bộ 30k files
BLEU score Edit Distance Token Accuracy
0.88 0.101 0.6281

Bi���u đồ thông số các metrics được sử dụng trên tập test


Run set
42


- Đánh giá sai số có thể chấp nhận được khi predict trên dữ liệu test

Về cơ bản thì trong quá trình predict, model có xu hướng predict sai ở các notation trong LaTeX code (có thể bị dư, thiếu hoặc sai một vài chỗ).
Tuy nhiên theo cá nhân em đánh giá thì với mức sai số trên đây có thể tạm chấp nhận được.