Skip to main content

Nejumi LLMリーダーボード Neo 改良アイデア

注目のLLMモデルの日本語能力を言語理解と生成能力の両側面から評価
Created on May 31|Last edited on May 31

Here's the English translated version of Nejumi Leaderboard

Nejumi リーダーボードの特徴 🐀

  • 注目のLLMモデルの日本語による能力評価ランキング
  • 一問一答形式で言語理解を評価するllm-jp-evalと、プロンプト対話で生成能力を評価するMT-Benchによる総合評価 👓
  • llm-jp-evalについては、モデルの素の能力をはかるために、zero-shotで辛口評価 🌶️
  • WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 🔍
  • インタラクティブに比較したいモデルを選択可能 🎰
  • WandBのReportから、実際に行った実験まで辿ることが可能 🛣️
本リーダーボードについてもっと深く知りたい方は下記ブログをご覧ください
本リーダーボードを自分で走らせたい場合(結果を公開しないことも可能)は、下記をご利用ください
リーダーボードの実行には、Weights & Biasesをご利用ください(無料トライアルで利用可能)。LLM開発に興���のある方は、W&Bのホワイトペーパーもおすすめです。

本リーダーボード全般に関するお問い合わせは、contact-jp@wandb.com にご連絡ください。

総合評価

※ llm-jp-evalについては、zero-shotを使用し、各testデータの100問に対する評価を計算しています。Wikiのデータについては、全体で100問となるようにデータ数を設定しています。
Overall average = (llm-jp-eval + MT-bench/10) / 2

Model list
52
7-8 B
11
13-14 B
9
70-72 B
0
Commercial
0



カテゴリごとの評価

LLM-jp-eval・MT-bench-jpの各カテゴリ(カテゴリについては、後半で解説)ごとの点数を確認することができます。比較したいモデルを下記のテーブルより👁️ボタンを押して選択してください。

Model list
2


llm-jp-eval 深掘り

llm-jp-evalリーダーボード詳細


Model list
68


llm-jp-evalのoutput詳細

output一覧

確認したいモデルをModel listの中から👁️マークを押して選択してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["jaster_output_table_dev"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。
row["target_dataset"]=="jamp"
outputの例については、各devデータの20問を使用しています。下記の例題表示にtestデータは使用していません。
💡

Model list
2


MT-bench-jp深掘り

MT-bench-jaのリーダーボード詳細


Model list
68


MT-bench-jp output詳細

確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["mtbench_output_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい(参考: queryの一般的な解説記事)。
row["category"]=="coding"

Model list
68



評価タスクの解説

このリーダーボードはWeights & Biases Japanが中心に運営しています。オープンおよびプロプライエタリのLLMモデルを下記のタスクに対して行った評価結果を掲載しています。
追加のモデル検証の依頼がありましたら、企業・組織のメールアドレスにて、contact-jp@wandb.comまで連絡ください。なお、githubは公開していますので、ご自身の環境で評価を行なっていただくこともできます。
💡
評価タスクとしては、下記のタスクをしようしています。
  • LLM-jpが公開し、Weights & Biasesの鎌田も開発に関わっているllm-jp-evalの評価体系とデータセットを使用。
  • lm-sysが公開しているMT-benchを使用。タスクは、Stability AIが作成した日本語タスクを使用。
このリーダーボードのgithubはhttps://github.com/wandb/llm-leaderboardです。ご自由にご利用ください。また、Pull Requestも受け付けています。

llm-jp-eval

LLM-jpでは公開されている評価データセットに前処理を施したデータセットを提供しています。 全てのデータセットの訓練データをチューニング用データとしても変換しており、LLM-jpではこのデータセットをjaster(j + asterisk)と呼んでいます(詳細:llm-jp-evalのDataset.md)。また、jasterを使った評価ツールであるllm-jp-eval(github)も同時に公開しています。llm-jp-evalは、以下の機能を提供しています。
  • 評価データのプロンプトと同形式���インストラクションデータ (jaster) を生成
  • 既存の日本語評価データを利用し、テキスト生成タスクの評価データセットに変換
  • 複数データセットを横断して大規模言語モデルの評価を実行
v1.1.0時点で対応されているデータセットの一覧は下記の通りです。なお、exact・char f1・ set f1は、データセットの評価方法を示しており、exactは完全一致、char f1は文字ベースのf1スコア、set f1は文章ベースのf1スコアを示している。また、各データセットの例題をalpaca形式を例に示しているが、形式はモデルに合わせて適切に変更している。

NLI (Natural Language Inference): Jamp(exact), JaNLI(exact), JNLI(exact), JSeM(exact), JSICK(exact)

QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)

RC (Reading Comprehension): JSQuAD (char f1)

MC (Multi-Choice QA): JCommonsenseQA(exact)

MR (Math Reasoning): MAWPS(exact)

EL (Entity Linking) : chABSA(set f1)

FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))

MT-bench

MT-benchはllm-sysによって開発されたマルチターンの質問を含む、慎重にキュレーションされたLLMのベンチマークです(papepaper / github)。また、Stability AIが日本語タスクを作成し、公開しています(日本語タスクgithub)。これらの質問は、LLMがマルチターンダイアログのモデルの会話の流れと指示に従う能力の評価を目的としており、「一般的なユースケース」と「挑戦的な指示」の両方が含まれています。質問の数は80問であり、下記の8つのカテゴリに分類をされています。
  • Writing
  • Roleplay
  • Extraction
  • Reasoning
  • Math
  • Coding
  • Knowledge I (STEM)
  • Knowledge II (humanities/social science)
下記の図は、英語版の問題の例を示した元論文からの引用図です。日本語版の問題については、Stability AIが公開しているgithubのこちらのページをご覧ください。

Appendix

実行時間

実行時間は使用するGPUのモデルのダウンロード速度やスペックに大きく依存するが、Overall averageとruntimeの関係性も参考までに下記に示す。7Bなどの軽量なモデルと70Bなどの大きなモデルでは、精度と実行時間に相関が見られる。雑に捉えると実行時間が倍になると精度が倍になる関係がある。
gptについては、gpt4と3.5で実行時間に倍ほどの差があるものの、精度の差が10%ほどであるのは面白い(実際、gpt3.5であっても、MT-benchの最後のプロセスはgpt4による評価で時間がかかっているので実行時間は倍以上の差があることになる)。



Run set
68