Skip to main content
nikgerasimenko
Projects
reward_model--moved
Reports
Reward-model report
Log in
Sign up
Share
Comment
Star
Reward-model report
reward-models metrics so far
Nikolai Gerasimenko
Created on June 8
|
Last edited on July 20
Comment
3 главные метрики:
PairAccuracy
= доля пар в датасете, в которых правильно выбран chosen ответ (идентична
метрике из catboost
)
eval/full_eval accuracy
- PairAccuracy на eval-датасете
eval/sber_markup_instruct_chosen_longer_eval accuracy
- PairAccuracy на части eval-датасета, в которых chosen ответ длинее rejected
eval/sber_markup_instruct_rejected_longer_eval accuracy
- PairAccuracy на части eval-датасета, в которых rejected ответ длинее chosen
Высокий показатель на
chosen_longer
при низком на
rejected_longer
говорит о переобучении на длину
Дополнительные метрики:
eval/full_eval precision@1
- доля вопросов в eval-датасете, для которых лучший ответ имеет наибольший реворд
eval/full_eval precision@2
- доля вопросов в eval-датасете, для которых лучший ответ входит в топ-2 ответов по реворду
eval/sber_markup_instruct_chosen_longer_eval accuracy
eval/sber_markup_instruct_chosen_longer_eval accuracy
Select runs that logged summary:eval/sber_markup_instruct_chosen_longer_eval accuracy
to visualize data in this bar chart.
eval/sber_markup_instruct_rejected_longer_eval accuracy
eval/sber_markup_instruct_rejected_longer_eval accuracy
Select runs that logged summary:eval/sber_markup_instruct_rejected_longer_eval accuracy
to visualize data in this bar chart.
eval/full_eval accuracy
eval/full_eval accuracy
Select runs that logged summary:eval/full_eval accuracy
to visualize data in this bar chart.
Run set 2
0
Add a comment