Nejumi LLMリーダーボード Neo
注目のLLMモデルの日本語能力を言語理解と生成能力の両側面から評価
Created on December 7|Last edited on August 27
Comment
Nejumi LLMリーダーボードNeoは新バージョンにアップデートされています-> こちら!
Nejumi LLM Leaderboard Neo has been superseded by a new version here

Nejumi リーダーボードの特徴 🐀
- 注目のLLMモデルの日本語による能力評価ランキング
- 一問一答形式で言語理解を評価するllm-jp-evalと、プロンプト対話で生成能力を評価するMT-Benchによる総合評価 👓
- llm-jp-evalについては、モデルの素の能力をはかるために、zero-shotで辛口評価 🌶️
- WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 🔍
- インタラクティブに比較したいモデルを選択可能 🎰
- WandBのReportから、実際に行った実験まで辿ることが可能 🛣️
本リーダーボードについてもっと深く知りたい方は下記ブログをご覧ください
- 「LLMリーダーボード運営から学んだ2023年の振り返り」(Nejumiリーダーボード開発の経緯)
本リーダーボードを自分で走らせたい場合(結果を公開しないことも可能)は、下記をご利用ください
- Nejumiリーダーボード評価の走らせ方(YouTube Video)
リーダーボードの実行には、Weights & Biasesをご利用ください(無料トライアルで利用可能)。LLM開発に興味のある方は、W&Bのホワイトペーパーもおすすめです。
本リーダーボード全般に関するお問い合わせは、contact-jp@wandb.com にご連絡ください。
総合評価
※ llm-jp-evalについては、zero-shotを使用し、各testデータの100問に対する評価を計算しています。Wikiのデータについては、全体で100問となるようにデータ数を設定しています。
Overall average = (llm-jp-eval + MT-bench/10) / 2
Model list
68
24
9
0
0
カテゴリごとの評価
LLM-jp-eval・MT-bench-jpの各カテゴリ(カテゴリについては、後半で解説)ごとの点数を確認することができます。比較したいモデルを下記のテーブルより👁️ボタンを押して選択してください。
Model list
4
llm-jp-eval 深掘り
llm-jp-evalリーダーボード詳細
Model list
68
llm-jp-evalのoutput詳細
output一覧
確認したいモデルをModel listの中から👁️マークを押して選択してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["jaster_output_table_dev"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。
row["target_dataset"]=="jamp"
outputの例については、各devデータの20問を使用しています。下記の例題表示にtestデータは使用していません。
💡
Model list
2
MT-bench-jp深掘り
MT-bench-jaのリーダーボード詳細
Model list
68
MT-bench-jp output詳細
確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["mtbench_output_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。
row["category"]=="coding"
Model list
68
評価タスクの解説
このリーダーボードはWeights & Biases Japanが中心に運営しています。オープンおよびプロプライエタリのLLMモデルを下記のタスクに対して行った評価結果を掲載しています。
追加のモデル検証の依頼がありましたら、企業・組織のメールアドレスにて、contact-jp@wandb.comまで連絡ください。なお、githubは公開していますので、ご自身の環境で評価を行なっていただくこともできます。
💡
評価タスクとしては、下記のタスクをしようしています。
- LLM-jpが公開し、Weights & Biasesの鎌田も開発に関わっているllm-jp-evalの評価体系とデータセットを使用。
- lm-sysが公開しているMT-benchを使用。タスクは、Stability AIが作成した日本語タスクを使用。
llm-jp-eval
LLM-jpでは公開されている評価データセットに前処理を施したデータセットを提供しています。 全てのデータセットの訓練データをチューニング用データとしても変換しており、LLM-jpではこのデータセットをjaster(j + asterisk)と呼んでいます(詳細:llm-jp-evalのDataset.md)。また、jasterを使った評価ツールであるllm-jp-eval(github)も同時に公開しています。llm-jp-evalは、以下の機能を提供しています。
- 評価データのプロンプトと同形式のインストラクションデータ (jaster) を生成
- 既存の日本語評価データを利用し、テキスト生成タスクの評価データセットに変換
- 複数データセットを横断して大規模言語モデルの評価を実行
v1.1.0時点で対応されているデータセットの一覧は下記の通りです。なお、exact・char f1・ set f1は、データセットの評価方法を示しており、exactは完全一致、char f1は文字ベースのf1スコア、set f1は文章ベースのf1スコアを示している。また、各データセットの例題をalpaca形式を例に示しているが、形式はモデルに合わせて適切に変更している。
NLI (Natural Language Inference): Jamp(exact), JaNLI(exact), JNLI(exact), JSeM(exact), JSICK(exact)
QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)
RC (Reading Comprehension): JSQuAD (char f1)
MC (Multi-Choice QA): JCommonsenseQA(exact)
MR (Math Reasoning): MAWPS(exact)
EL (Entity Linking) : chABSA(set f1)
FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))
MT-bench
MT-benchはllm-sysによって開発されたマルチターンの質問を含む、慎重にキュレーションされたLLMのベンチマークです(papepaper / github)。また、Stability AIが日本語タスクを作成し、公開しています(日本語タスクgithub)。これらの質問は、LLMがマルチターンダイアログのモデルの会話の流れと指示に従う能力の評価を目的としており、「一般的なユースケース」と「挑戦的な指示」の両方が含まれています。質問の数は80問であり、下記の8つのカテゴリに分類をされています。
- Writing
- Roleplay
- Extraction
- Reasoning
- Math
- Coding
- Knowledge I (STEM)
- Knowledge II (humanities/social science)
Appendix
実行時間
実行時間は使用するGPUのモデルのダウンロード速度やスペックに大きく依存するが、Overall averageとruntimeの関係性も参考までに下記に示す。7Bなどの軽量なモデルと70Bなどの大きなモデルでは、精度と実行時間に相関が見られる。雑に捉えると実行時間が倍になると精度が倍になる関係がある。
gptについては、gpt4と3.5で実行時間に倍ほどの差があるものの、精度の差が10%ほどであるのは面白い(実際、gpt3.5であっても、MT-benchの最後のプロセスはgpt4による評価で時間がかかっているので実行時間は倍以上の差があることになる)。
Run set
68
Add a comment