Skip to main content

Nejumi LLMリーダーボード3(量子化比較用)

注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価
Created on July 2|Last edited on September 6






Nejumi リーダーボードの 特徴

  • 注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価 📊
  • Seen/unseen問題を回避するため、価を導入しました。最終スコアはZero-shot評価とFew-shot評価の平均によって算出 🧮
  • WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 🔍
  • インタラクティブに比較したいモデルを選択可能 🎰
  • WandBのReportから、実際に行った実験まで辿ることが可能 🛣️
  • 評価スクリプトも公開!自社でプライベートにリーダーボードを構築可能 🤫

評価フレームワークの詳細

リーダーボードのプライベート利用とお問い合わせ

LLMの評価に関する情報

リーダーボードで使用したタクソノミー(分類)や評価指標、評価方法についてより詳しく知りたい方は、以下のW&Bのホワイトペーパーのうち、「LLM評価のベストプラクティス」をご確認ください。なお、Weights & Biases はそれ以外にLLMのホワイトペーパーを公開しているので合わせてご確認ください。また、本プロジェクトはMACNICAが提供するAI TRY NOWのGPUの支援を受け、進められました。


総合評価

  • llm-jp-eval(jaster)については、2-shotを使用し、各testデータの100問に対する評価を計算しています。Wikiのデータについては、全体で100問となるようにデータ数を設定しています。
  • それぞれのスコアは0から1 (1が優れている)にスケーリングをした後に集計をおり、平均点は1点満点のスコアになります。JBBQについてはバイアススコアを使用しており、バイアススコアは0に近いほどバイアスがないことを示すため、1-バイアススコアの数字を総合評価に使用しています。
  • 定義
GLP : General Language Processing (汎用的言語性能)
ALT : Alignment (アラインメント)
Total AVG = (Avg. GLP + Avg. ALT)/2

Run set
129


モデル比較


Run set
1





GLP_表現 : expression

🗂️ 該当評価データセット・フレームワーク

MT-bench: roleplay, humanities, writing

📋 結果

🔍 結果詳細

GLP_翻訳: translation

🗂️ 該当評価データセット・フレームワーク

jaster: alt-e-to-j, alt-j-to-e, wikicorpus-e-to-j, wikicorpus-j-to-e (それぞれ0shot, 2shotを実施)

📋 結果

🔍 結果詳細

GLP_要約: summarization

適切な評価データセットとフレームワークを探索中。Not implemented yet

GLP_情報検索: information extraction

🗂️ 該当評価データセット・フレームワーク

jaster: jsquad (それぞれ0shot, 2shotを実施)

📋 結果

🔍 結果詳細

GLP_論理的推論: reasoning

🗂️ 該当評価データセット・フレームワーク

MT-bench: reasoning

📋 結果


Run set
99


🔍 結果詳細


Run set
0


GLP_数学的推論: mathematical reasoning

🗂️ 該当評価データセット・フレームワーク

jaster: mawps, mgsm (それぞれ0shot, 2shotを実施)
MT-bench: math

📋 結果

🔍 結果詳細

GLP_抽出: entity extraction

🗂️ 該当評価データセット・フレームワーク

jaster: wiki_ner, wiki_coreference, chABSA (それぞれ0shot, 2shotを実施)
MT-bench: extraction

📋 結果

🔍 結果詳細

GLP_知識・質問応答: knowledge/QA

🗂️ 該当評価データセット・フレームワーク

jaster: JCommonsenseQA, JEMHopQA, JMMLU, NIILC, aio(それぞれ0shot, 2shotを実施)
MT-bench: stem

📋 結果

🔍 結果詳細

GLP_英語: english

🗂️ 該当評価データセット・フレームワーク

jaster: MMLU (それぞれ0shot, 2shotを実施)

📋 結果

🔍 結果詳細

GLP_意味解析: semantic analysis

🗂️ 該当評価データセット・フレームワーク

jaster: JNLI, JaNLI, JSeM, JSICK, Jamp(それぞれ0shot, 2shotを実施)

📋 結果

🔍 結果詳細

GLP_構文解析: syntactic analysis

🗂️ 該当評価データセット・フレームワーク

jaster: JCoLA-in-domain, JCoLA-out-of-domain, JBLiMP, wiki_reading, wiki_pas, wiki_dependency (それぞれ0shot, 2shotを実施)

📋 結果

🔍 結果詳細

ALT_制御性: controllability

🗂️ 該当評価データセット・フレームワーク

jaster: 回答のフォーマットを自動評価できる指標 (chabsa, commonsensemoralja, jamp, janli, jblimp, jcola-in-domain, jcola-out-of-domain, jcommonsenseqa, jmmlu, jnli, jsem, jsick, kuci, mawps, mgsm, mmlu_en, wiki_dependency, wiki_ner)
LCTG bench

📋 結果

🔍 結果詳細

ALT_倫理・道徳: ethics

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

毒性: ALT_toxicity

🗂️ 該当評価データセット・フレームワーク

LINEヤフー 信頼性評価データセット

📋 結果

🔍 結果詳細

ALT_バイアス: bias

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細


Run set
0


ALT_真実性: truthfulness

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

ALT_堅牢性: robustness

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細




Appendix

llm-jp-evalの深掘り

llm-jp-eval overview (0 shotと4shotそれぞれ)

llm-jp-evalリーダーボード詳細 (0 shotと4shotそれぞれ)

MT-bench-jpの深掘り

MT-bench overview

MT-bench output詳細

評価データセットの解説

llm-jp-eval (jasterを使用)

Japanese MT-Bench

LCTG-Bench

LINEヤフー 信頼性評価データセット

JcommonseMorality

BBQ/JBBQ