Skip to main content

日本語 Open LLM Leaderboard

日本語向け LLM に対する Huggingface 社の Open LLM Leaderboard 検証結果です
Created on November 29|Last edited on December 4


概要

  • Huggingface 社による Open LLM Leaderboard と同様の検証を日本語向け LLM に対して実施しました
  • 検証タスクは全て英語で作成されているため、日本語向け LLM の英語における精度が確認できます

検証方法について

検証した LLM

下記の日本語向け LLM について検証を行いました。
また、比較として英語向け LLM についても検証を行いました。
検証結果の model_name カラムが huggingface-hub に登録されているモデル名となっておりますので、そちらでモデルの詳細をご確認ください。

検証に使用したタスク

2023年11月時点の Open LLM Leaderboard と同様に下記のタスクを評価に使用しています。
評価尺度についても Open LLM Leaderboard と同様のものを使用しています。
各タスクの概要欄は Open LLM Leaderboard に記載の内容を翻訳したものになります。
AI2 Reasoning Challenge は原著論文へのリンクを、それ以外のタスクは使用している huggingface-hub へのリンクを貼っています。
タスク名
(正式)
タスク名
(評価結果)
# few-shot概要評価尺度
AI2 Reasoning Challengearc-challenge25小学生向けの科学問題集acc_norm
HellaSWAGhellaswag10人間にとっては簡単だが、SOTA モデルにとっては難しい常識に関する推論acc_norm
MMLUmmlu5初等数学、米国史、コンピュータサイエンス、法律などの57タスクを検証acc
TruthfulQAtruthfulqa-mc0ネット上でよくみられる虚構を再現するモデルの傾向を測定する検証タスク
(lm-evaluation-harness の都合で実際には6-shot)
mc2
Winograndewinogrande5敵対的で難しい常識に関する推論検証acc
GSM8kgsm8k5多段階の数学的推論問題を解くモデルの能力を測定するための、多様な小学生向け数学の読解問題acc


検証設定

基本的には Open LLM に従い、こちらのバージョンの EleutherAI/lm-evaluation-harness を使用しました。
以下のコマンドで検証を実施しています。
$ python main.py \
--model hf-causal \
--model_args "pretrained=${model},revision=main,trust_remote_code=True" \
--tasks ${task} \
--num_fewshot ${n_fewshot} \
--batch_size 2 \
--output_path ${output_path} \
--write_out \
--output_base_path ${write_output_path}
また、Open LLM Leaderboard との違いとして、本リーダーボードは lm-evaluation-harness の出力したスコアをそのまま記載しています。
LoRA モデルの検証時や、 GSM8k 実施時にこちらの issue が発生する場合は hf-causal-experimental を使用しています。

検証結果

Average が各タスクを算術平均した結果になりますが、こちらの算出には言語学的な意味はないため、あくまで参考値としてご認識ください。
💡



llm-jp 関連のモデル比較

次の表に llm-jp 関連のモデルのみまとめました。