日本語 Open LLM Leaderboard
日本語向け LLM に対する Huggingface 社の Open LLM Leaderboard 検証結果です
Created on November 29|Last edited on December 4
Comment
概要
- Huggingface 社による Open LLM Leaderboard と同様の検証を日本語向け LLM に対して実施しました
- 検証タスクは全て英語で作成されているため、日本語向け LLM の英語における精度が確認できます
検証方法について
検証した LLM
下記の日本語向け LLM について検証を行いました。
また、比較として英語向け LLM についても検証を行いました。
検証に使用したタスク
2023年11月時点の Open LLM Leaderboard と同様に下記のタスクを評価に使用しています。
評価尺度についても Open LLM Leaderboard と同様のものを使用しています。
各タスクの概要欄は Open LLM Leaderboard に記載の内容を翻訳したものになります。
AI2 Reasoning Challenge は原著論文へのリンクを、それ以外のタスクは使用している huggingface-hub へのリンクを貼っています。
| タスク名 (正式) | タスク名 (評価結果) | # few-shot | 概要 | 評価尺度 |
|---|---|---|---|---|
| AI2 Reasoning Challenge | arc-challenge | 25 | 小学生向けの科学問題集 | acc_norm |
| HellaSWAG | hellaswag | 10 | 人間にとっては簡単だが、SOTA モデルにとっては難しい常識に関する推論 | acc_norm |
| MMLU | mmlu | 5 | 初等数学、米国史、コンピュータサイエンス、法律などの57タスクを検証 | acc |
| TruthfulQA | truthfulqa-mc | 0 | ネット上でよくみられる虚構を再現するモデルの傾向を測定する検証タスク (lm-evaluation-harness の都合で実際には6-shot) | mc2 |
| Winogrande | winogrande | 5 | 敵対的で難しい常識に関する推論検証 | acc |
| GSM8k | gsm8k | 5 | 多段階の数学的推論問題を解くモデルの能力を測定するための、多様な小学生向け数学の読解問題 | acc |
検証設定
以下のコマンドで検証を実施しています。
$ python main.py \--model hf-causal \--model_args "pretrained=${model},revision=main,trust_remote_code=True" \--tasks ${task} \--num_fewshot ${n_fewshot} \--batch_size 2 \--output_path ${output_path} \--write_out \--output_base_path ${write_output_path}
また、Open LLM Leaderboard との違いとして、本リーダーボードは lm-evaluation-harness の出力したスコアをそのまま記載しています。
検証結果
Average が各タスクを算術平均した結果になりますが、こちらの算出には言語学的な意味はないため、あくまで参考値としてご認識ください。
💡
llm-jp 関連のモデル比較
次の表に llm-jp 関連のモデルのみまとめました。
Add a comment