Skip to main content

Reward-model report

reward-models metrics so far
Created on June 8|Last edited on July 20
3 главные метрики:
PairAccuracy = доля пар в датасете, в которых правильно выбран chosen ответ (идентична метрике из catboost)
  1. eval/full_eval accuracy - PairAccuracy на eval-датасете
  2. eval/sber_markup_instruct_chosen_longer_eval accuracy - PairAccuracy на части eval-датасета, в которых chosen ответ длинее rejected
  3. eval/sber_markup_instruct_rejected_longer_eval accuracy - PairAccuracy на части eval-датасета, в которых rejected ответ длинее chosen
Высокий показатель на chosen_longer при низком на rejected_longer говорит о переобучении на длину
Дополнительные метрики:
  1. eval/full_eval precision@1 - доля вопросов в eval-датасете, для которых лучший ответ имеет наибольший реворд
  2. eval/full_eval precision@2 - доля вопросов в eval-датасете, для которых лучший ответ входит в топ-2 ответов по реворду

Select runs that logged summary:eval/sber_markup_instruct_chosen_longer_eval accuracy
to visualize data in this bar chart.
Select runs that logged summary:eval/sber_markup_instruct_rejected_longer_eval accuracy
to visualize data in this bar chart.
Select runs that logged summary:eval/full_eval accuracy
to visualize data in this bar chart.
Run set 2
0