Reward-model report

reward-models metrics so far
Created on June 8|Last edited on July 20
Comment
3 главные метрики:
PairAccuracy = доля пар в датасете, в которых правильно выбран chosen ответ (идентична метрике из catboost﻿﻿)
eval/full_eval accuracy - PairAccuracy на eval-датасете
eval/sber_markup_instruct_chosen_longer_eval accuracy - PairAccuracy на части eval-датасета, в которых chosen ответ длинее rejected
eval/sber_markup_instruct_rejected_longer_eval accuracy - PairAccuracy на части eval-датасета, в которых rejected ответ длинее chosen
Высокий показатель на chosen_longer при низком на rejected_longer говорит о переобучении на длину
Дополнительные метрики:
eval/full_eval precision@1 - доля вопросов в eval-датасете, для которых лучший ответ имеет наибольший реворд
eval/full_eval precision@2 - доля вопросов в eval-датасете, для которых лучший ответ входит в топ-2 ответов по реворду
﻿
eval/sber_markup_instruct_chosen_longer_eval accuracy
eval/sber_markup_instruct_chosen_longer_eval accuracy
Select runs that logged summary:eval/sber_markup_instruct_chosen_longer_eval accuracy 
to visualize data in this bar chart.
eval/sber_markup_instruct_rejected_longer_eval accuracy
eval/sber_markup_instruct_rejected_longer_eval accuracy
Select runs that logged summary:eval/sber_markup_instruct_rejected_longer_eval accuracy 
to visualize data in this bar chart.
eval/full_eval accuracy
eval/full_eval accuracy
Select runs that logged summary:eval/full_eval accuracy 
to visualize data in this bar chart.
Run set 20
﻿
﻿
﻿
Add a comment