Nejumi LLMリーダーボード Neo 改良アイデア

注目のLLMモデルの日本語能力を言語理解と生成能力の両側面から評価

Created on May 31|Last edited on May 31

Comment

﻿
﻿
﻿Here's the English translated version of Nejumi Leaderboard
Nejumi リーダーボードの特徴 🐀注目のLLMモデルの日本語による能力評価ランキング
一問一答形式で言語理解を評価するllm-jp-evalと、プロンプト対話で生成能力を評価するMT-Benchによる総合評価 👓
llm-jp-evalについては、モデルの素の能力をはかるために、zero-shotで辛口評価 🌶️ 
WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 🔍 
インタラクティブに比較したいモデルを選択可能 🎰
WandBのReportから、実際に行った実験まで辿ることが可能 🛣️
本リーダーボードについてもっと深く知りたい方は下記ブログをご覧ください
「LLMリーダーボード運営から学んだ2023年の振り返り」（Nejumiリーダーボード開発の経緯）
「Nejumi LLMリーダーボード Neoからの考察」
本リーダーボードを自分で走らせたい場合（結果を公開しないことも可能）は、下記をご利用ください
﻿https://github.com/wandb/llm-leaderboard﻿
﻿Nejumiリーダーボード評価の走らせ方（YouTube Video)
リーダーボードの実行には、Weights & Biasesをご利用ください（無料トライアルで利用可能）。LLM開発に興味のある方は、W&Bのホワイトペーパーもおすすめです。
Weights & Biases: 開発者のための MLOps プラットフォーム
WandBはML チームが最高のモデルの開発に集中できるよう支援します
無料ホワイトペーパー: 「LLMをゼロからトレーニングするためのベストプラクティス」
このホワイトペーパーでは私たちがこれまでに蓄積してきたLLM開発のノウハウをご共有します。
LLM評価のベストプラクティス
急速に発展を続ける大規模言語モデルは活用によってより多くの価値を生み出すことが求められています。目的に合ったモデルを選択し、その性能を向上していくためには、優れた評価手法と自動化された評価プロセスの構築が求められています。
﻿
本リーダーボード全般に関するお問い合わせは、contact-jp@wandb.com にご連絡ください。
総合評価※ llm-jp-evalについては、zero-shotを使用し、各testデータの100問に対する評価を計算しています。Wikiのデータについては、全体で100問となるようにデータ数を設定しています。
Overall average = (llm-jp-eval + MT-bench/10) / 2
﻿
Model list52
 
7-8 B11
 
13-14 B9
 
70-72 B0
 
Commercial0
﻿
﻿
カテゴリごとの評価LLM-jp-eval・MT-bench-jpの各カテゴリ（カテゴリについては、後半で解説）ごとの点数を確認することができます。比較したいモデルを下記のテーブルより👁️ボタンを押して選択してください。
﻿
Model list2
﻿
llm-jp-eval 深掘り
llm-jp-evalリーダーボード詳細﻿
Model list68
﻿
llm-jp-evalのoutput詳細
output一覧確認したいモデルをModel listの中から👁️マークを押して選択してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["jaster_output_table_dev"]の左下の▽ボタンを押し、以下のqueryを入力して下さい（参考: queryの一般的な解説記事）。
row["target_dataset"]=="jamp"
outputの例については、各devデータの20問を使用しています。下記の例題表示にtestデータは使用していません。
💡
﻿
Model list2
﻿
MT-bench-jp深掘り
MT-bench-jaのリーダーボード詳細﻿
Model list68
﻿
MT-bench-jp output詳細確認したいモデルをModel listの中から👁️マークを押して表示してください。例えば、カテゴリをcodingでfilterしたい場合、runs.summary["mtbench_output_table"]の左下の▽ボタンを押し、以下のqueryを入力して下さい（参考: queryの一般的な解説記事）。
row["category"]=="coding"
﻿
Model list68
﻿
﻿
評価タスクの解説このリーダーボードはWeights & Biases Japanが中心に運営しています。オープンおよびプロプライエタリのLLMモデルを下記のタスクに対して行った評価結果を掲載しています。
追加のモデル検証の依頼がありましたら、企業・組織のメールアドレスにて、contact-jp@wandb.comまで連絡ください。なお、githubは公開していますので、ご自身の環境で評価を行なっていただくこともできます。
💡
評価タスクとしては、下記のタスクをしようしています。
LLM-jpが公開し、Weights & Biasesの鎌田も開発に関わっているllm-jp-evalの評価体系とデータセットを使用。
lm-sysが公開しているMT-benchを使用。タスクは、Stability AIが作成した日本語タスクを使用。
このリーダーボードのgithubはhttps://github.com/wandb/llm-leaderboardです。ご自由にご利用ください。また、Pull Requestも受け付けています。
llm-jp-eval﻿﻿LLM-jpでは公開されている評価データセットに前処理を施したデータセットを提供しています。 全てのデータセットの訓練データをチューニング用データとしても変換しており、LLM-jpではこのデータセットをjaster（j + asterisk）と呼んでいます（詳細：llm-jp-evalのDataset.md）。また、jasterを使った評価ツールであるllm-jp-eval(github)も同時に公開しています。llm-jp-evalは、以下の機能を提供しています。
評価データのプロンプトと同形式のインストラクションデータ (jaster) を生成
既存の日本語評価データを利用し、テキスト生成タスクの評価データセットに変換
複数データセットを横断して大規模言語モデルの評価を実行
v1.1.0時点で対応されているデータセットの一覧は下記の通りです。なお、exact・char f1・ set f1は、データセットの評価方法を示しており、exactは完全一致、char f1は文字ベースのf1スコア、set f1は文章ベースのf1スコアを示している。また、各データセットの例題をalpaca形式を例に示しているが、形式はモデルに合わせて適切に変更している。
NLI (Natural Language Inference): Jamp(exact), ﻿JaNLI﻿(exact)﻿, ﻿JNLI﻿(exact)﻿, ﻿JSeM﻿(exact)﻿, ﻿JSICK﻿(exact)﻿
QA (Question Answering): JEMHopQA﻿(char f1)﻿, ﻿NIILC﻿(char f1)﻿
RC (Reading Comprehension): JSQuAD (char f1)﻿
MC (Multi-Choice QA): JCommonsenseQA﻿(exact)﻿
MR (Math Reasoning): MAWPS﻿(exact)﻿
EL (Entity Linking) : chABSA﻿(set f1)﻿
FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))
MT-bench MT-benchはllm-sysによって開発されたマルチターンの質問を含む、慎重にキュレーションされたLLMのベンチマークです(papepaper / github﻿﻿)。また、Stability AIが日本語タスクを作成し、公開しています（日本語タスクgithub）。これらの質問は、LLMがマルチターンダイアログのモデルの会話の流れと指示に従う能力の評価を目的としており、「一般的なユースケース」と「挑戦的な指示」の両方が含まれています。質問の数は80問であり、下記の8つのカテゴリに分類をされています。
Writing
Roleplay
Extraction
Reasoning
Math
Coding
Knowledge I (STEM)
Knowledge II (humanities/social science)
下記の図は、英語版の問題の例を示した元論文からの引用図です。日本語版の問題については、Stability AIが公開しているgithubのこちらのページをご覧ください。
﻿https://arxiv.org/abs/2306.05685﻿
Appendix 
実行時間実行時間は使用するGPUのモデルのダウンロード速度やスペックに大きく依存するが、Overall averageとruntimeの関係性も参考までに下記に示す。7Bなどの軽量なモデルと70Bなどの大きなモデルでは、精度と実行時間に相関が見られる。雑に捉えると実行時間が倍になると精度が倍になる関係がある。
gptについては、gpt4と3.5で実行時間に倍ほどの差があるものの、精度の差が10%ほどであるのは面白い（実際、gpt3.5であっても、MT-benchの最後のプロセスはgpt4による評価で時間がかかっているので実行時間は倍以上の差があることになる）。
﻿
﻿
﻿
Run set68
﻿
﻿
﻿
﻿
﻿

Add a comment

Nejumi LLMリーダーボード Neo 改良アイデア

Nejumi リーダーボードの特徴 🐀

総合評価

カテゴリごとの評価

llm-jp-eval 深掘り

llm-jp-evalリーダーボード詳細

llm-jp-evalのoutput詳細

output一覧

MT-bench-jp深掘り

MT-bench-jaのリーダーボード詳細

MT-bench-jp output詳細

評価タスクの解説

llm-jp-eval

NLI (Natural Language Inference): Jamp(exact), JaNLI(exact), JNLI(exact), JSeM(exact), JSICK(exact)

QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)

RC (Reading Comprehension): JSQuAD (char f1)

MC (Multi-Choice QA): JCommonsenseQA(exact)

MR (Math Reasoning): MAWPS(exact)

EL (Entity Linking) : chABSA(set f1)

FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))

MT-bench

Appendix

実行時間

Nejumi LLMリーダーボード Neo 改良アイデア

Nejumi リーダーボードの特徴 🐀

総合評価

カテゴリごとの評価

llm-jp-eval 深掘り

llm-jp-evalリーダーボード詳細

llm-jp-evalのoutput詳細

output一覧

MT-bench-jp深掘り

MT-bench-jaのリーダーボード詳細

MT-bench-jp output詳細

評価タスクの解説

llm-jp-eval

NLI (Natural Language Inference): Jamp(exact), ﻿JaNLI﻿(exact)﻿, ﻿JNLI﻿(exact)﻿, ﻿JSeM﻿(exact)﻿, ﻿JSICK﻿(exact)﻿

QA (Question Answering): JEMHopQA﻿(char f1)﻿, ﻿NIILC﻿(char f1)﻿

RC (Reading Comprehension): JSQuAD (char f1)﻿

MC (Multi-Choice QA): JCommonsenseQA﻿(exact)﻿

MR (Math Reasoning): MAWPS﻿(exact)﻿

EL (Entity Linking) : chABSA﻿(set f1)﻿

FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading (char f1), wiki_ner(set f1), wiki_dependency(set f1), wiki_pas(set f1), wiki_coreference(set f1))

MT-bench

Appendix

実行時間

NLI (Natural Language Inference): Jamp(exact), JaNLI(exact), JNLI(exact), JSeM(exact), JSICK(exact)

QA (Question Answering): JEMHopQA(char f1), NIILC(char f1)

RC (Reading Comprehension): JSQuAD (char f1)

MC (Multi-Choice QA): JCommonsenseQA(exact)

MR (Math Reasoning): MAWPS(exact)

EL (Entity Linking) : chABSA(set f1)