Nejumi LLMリーダーボード3 for Hayashi-san Review
注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価
Created on June 24|Last edited on June 24
Comment

① Nejumi リーダーボードの 特徴
- 注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価 📊
- WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 🔍
- インタラクティブに比較したいモデルを選択可能 🎰
- WandBのReportから、実際に行った実験まで辿ることが可能 🛣️
- 評価スクリプトも公開!自社でプライベートにリーダーボードを構築可能 🤫
② Nejumi リーダーボードの 評価スクリプト
評価スクリプトおよび、評価方法も下記で公開しています!
③ リーダーボードの利用とお問い合わせ
ALIGNMENT(ALT)のデータにはデータの再交付が禁止されているものや許可がない商用利用を禁止しているデータセットがありますので、ご自身で検証される際はライセンスの規約確認をお願いします。プレスを出される際は、General Language Processing (GLP)のみを指標としてご利用ください。
💡
本リーダーボード全般に関するお問い合わせやプライベートリーダーボード作成にご関心のある方は、contact-jp@wandb.com までご連絡ください
④ LLMの評価に関する情報
リーダーボードで使用したタクソノミー(分類)や評価指標、評価方法について知りたい方は、以下のW&Bのホワイトペーパーのうち、「LLM評価のベストプラクティス」をご確認ください。なお、Weights & Biases はそれ以外にLLMのホワイトペーパーを公開しているので合わせてご確認ください

LLMをゼロからトレーニングするためのベストプラクティス
このホワイトペーパーでは私たちがこれまでに蓄積してきたLLM開発のノウハウをご共有します

LLMファインチューニングとプロンプトエンジニアリング
このホワイトペーパーでは、ファインチューニングとプロンプトエンジニアリングについて一通り学ぶことができます

大規模言語モデル(LLM)評価のベストプラクティス
このホワイトペーパーではWeights & Biasesが国内最大級のLLM日本語評価リーダーボードであるNejumi.AIを開発・運営してきた経験に基づき、生成AI・LLM評価のベストプラクティスを共有します

NVIDIA環境で最新AIを検証できるAI TRY NOW PROGRAM
本番環境に近いパフォーマンスを測定し、導入の意思決定を加速
総合評価
- llm-jp-eval(jaster)については、2-shotを使用し、各testデータの100問に対する評価を計算しています。Wikiのデータについては、全体で100問となるようにデータ数を設定しています。
- それぞれのスコアは0から1 (1が優れている)にスケーリングをした後に集計をおり、平均点は1点満点のスコアになります。
- 定義
GLP : General Language Processing (汎用的言語性能)
ALT : Alignment (アラインメント)
Total AVG = (Avg. GLP + Avg. ALT)/2
Run set
99
Run set
0
総合評価GLP_表現 : expressionGLP_翻訳: translationGLP_要約: summarizationGLP_情報検索: information extractionGLP_論理的推論: reasoningGLP_数学的推論: mathematical reasoningGLP_抽出: entity extractionGLP_知識・質問応答: knowledge/QAGLP_英語: englishGLP_意味解析: semantic analysisGLP_構文解析: syntactic analysisALT_制御性: controllabilityALT_倫理・道徳: ethics毒性: ALT_toxicityALT_バイアス: biasALT_真実性: truthfulnessALT_堅牢性: robustnessAppendixllm-jp-evalの深掘りMT-bench-jpの深掘りタクソノミー評価データセットの解説MT-bench-jaのリーダーボード詳細MT-bench-jp output詳細
GLP_表現 : expression
🗂️ 該当評価データセット・フレームワーク
MT-bench: roleplay, humanities, writing
📋 結果
🔍 結果詳細
GLP_翻訳: translation
🗂️ 該当評価データセット・フレームワーク
jaster: alt-e-to-j, alt-j-to-e, wikicorpus-e-to-j, wikicorpus-j-to-e (それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
GLP_要約: summarization
適切な評価データセットとフレームワークを探索中。Not implemented yet
GLP_情報検索: information extraction
🗂️ 該当評価データセット・フレームワーク
jaster: jsquad (それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
GLP_論理的推論: reasoning
🗂️ 該当評価データセット・フレームワーク
MT-bench: reasoning
📋 結果
🔍 結果詳細
GLP_数学的推論: mathematical reasoning
🗂️ 該当評価データセット・フレームワーク
jaster: mawps, mgsm (それぞれ0shot, 2shotを実施)
MT-bench: math
📋 結果
🔍 結果詳細
GLP_抽出: entity extraction
🗂️ 該当評価データセット・フレームワーク
jaster: wiki_ner, wiki_coreference, chABSA (それぞれ0shot, 2shotを実施)
MT-bench: extraction
📋 結果
🔍 結果詳細
GLP_知識・質問応答: knowledge/QA
🗂️ 該当評価データセット・フレームワーク
jaster: JCommonsenseQA, JEMHopQA, JMMLU, NIILC, aio(それぞれ0shot, 2shotを実施)
MT-bench: stem
📋 結果
🔍 結果詳細
GLP_英語: english
🗂️ 該当評価データセット・フレームワーク
jaster: MMLU (それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
GLP_意味解析: semantic analysis
🗂️ 該当評価データセット・フレームワーク
jaster: JNLI, JaNLI, JSeM, JSICK, Jamp(それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
GLP_構文解析: syntactic analysis
🗂️ 該当評価データセット・フレームワーク
jaster: JCoLA-in-domain, JCoLA-out-of-domain, JBLiMP, wiki_reading, wiki_pas, wiki_dependency (それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
ALT_制御性: controllability
🗂️ 該当評価データセット・フレームワーク
jaster: 回答のフォーマットを自動評価できる指標 (chabsa, commonsensemoralja, jamp, janli, jblimp, jcola-in-domain, jcola-out-of-domain, jcommonsenseqa, jmmlu, jnli, jsem, jsick, kuci, mawps, mgsm, mmlu_en, wiki_dependency, wiki_ner)
LCTG bench
📋 結果
🔍 結果詳細
ALT_倫理・道徳: ethics
🗂️ 該当評価データセット・フレームワーク
jaster: JcommonsenseMorality
📋 結果
🔍 結果詳細
毒性: ALT_toxicity
🗂️ 該当評価データセット・フレームワーク
LINEヤフー 信頼性評価データセット
📋 結果
🔍 結果詳細
ALT_バイアス: bias
🗂️ 該当評価データセット・フレームワーク
JBBQ
📋 結果
🔍 結果詳細
ALT_真実性: truthfulness
適切な評価データセットとフレームワークを探索中。Not implemented yet
ALT_堅牢性: robustness
🗂️ 該当評価データセット・フレームワーク
jaster: JMMLUを拡張

📋 結果
🔍 結果詳細
Appendix
llm-jp-evalの深掘り
llm-jp-eval overview (0 shotと4shotそれぞれ)
llm-jp-evalリーダーボード詳細 (0 shotと4shotそれぞれ)
MT-bench-jpの深掘り
MT-bench overview
MT-bench output詳細
タクソノミー
評価データセットの解説
llm-jp-eval (jasterを使用)
Japanese MT-Bench
LCTG-Bench
LINEヤフー 信頼性評価データセット
BBQ/JBBQ
MMLU/JMMLU
MT-bench-jaのリーダーボード詳細
MT-bench-jp output詳細
Add a comment