Nejumi LLMリーダーボード3

注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価

Kei Kamata, Taichi Ibi, Yuya Yamamoto, Kazuki Kurosawa, Ryo Kanazawa, Akira Shibata

Created on May 17|Last edited on August 27

Comment

﻿
Nejumi LLMリーダーボード3 は新バージョンにアップデートされています-> こちら！
Nejumi LLM Leaderboard 3 has been superseded by a new version here﻿﻿﻿﻿
﻿
リリースブログはこちら ！
リーダーボードを閲覧するためには、W&Bにログインするか、こちらのリンクをクリックしてください。
Nejumi リーダーボードの 特徴注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価 📊
Seen/unseen問題を回避するため、価を導入しました。最終スコアはZero-shot評価とFew-shot評価の平均によって算出 🧮
WandBのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 🔍 
インタラクティブに比較したいモデルを選択可能 🎰
WandBのReportから、実際に行った実験まで辿ることが可能 🛣️
評価スクリプトも公開！自社でプライベートにリーダーボードを構築可能 🤫
リーダーボードで使用したタクソノミー（分類）や評価指標、評価方法についてより詳しく知りたい方は、以下のW&Bのホワイトペーパーのうち、「LLM評価のベストプラクティス」をご確認ください。なお、Weights & Biases はそれ以外にLLMのホワイトペーパーを公開しているので合わせてご確認ください。また、本プロジェクトはMACNICAが提供するAI TRY NOWのGPUの支援を受け、進められました。
LLMをゼロからトレーニングするためのベストプラクティス
このホワイトペーパーでは私たちがこれまでに蓄積してきたLLM開発のノウハウをご共有します
LLMファインチューニングとプロンプトエンジニアリング
このホワイトペーパーでは、ファインチューニングとプロンプトエンジニアリングについて一通り学ぶことができます
大規模言語モデル（LLM）評価のベストプラクティス
このホワイトペーパーではWeights & Biasesが国内最大級のLLM日本語評価リーダーボードであるNejumi.AIを開発・運営してきた経験に基づき、生成AI・LLM評価のベストプラクティスを共有します
NVIDIA環境で最新AIを検証できるAI TRY NOW PROGRAM
本番環境に近いパフォーマンスを測定し、導入の意思決定を加速
﻿
評価フレームワークの詳細LLM（大規模言語モデル）の評価は、モデルの能力向上と応用範囲の拡大に伴い、より包括的で多面的なアプローチが必要となっています。以下に、LLM評価の主要カテゴリとそれぞれの評価方法を詳説します。
本リーダーボードで用いたタクソノミー
1. 汎用的言語性能 (General Language Processing, GLP)
2. 安全性能
a) アライメント (Alignment)制御性: LCTG Bench, jaster (選択肢問題のアライン率)
倫理・道徳: jaster (JcommonsenseMorality), AnswerCarefully
毒性: LINEヤフー 信頼性評価データセット
バイアス: JBBQ
真実性: JTruthfulQA 
堅牢性: jaster (JMMLUの拡張版)
b) システム性能推論速度: 評価方法検討中
推論効率: 評価方法検討中
セキュリティ: 評価方法検討中
﻿
3. ドメイン特化性能法律: 今回は実施せず、評価データセット探索中
医療: 今回は実施せず、評価データセット探索中
金融: 今回は実施せず、評価データセット探索中
プログラミング: MBPP, MT-bench (coding)
リーダーボードのプライベート利用とお問い合わせ
その他の特化型リーダーボード視覚言語モデルの評価を行っているHeron VLM リーダーボードはこちら﻿
総合評価llm-jp-eval(jaster)については、2-shotを使用し、各testデータの100問に対する評価を計算しています。Wikiのデータについては、全体で100問となるようにデータ数を設定しています。
それぞれのスコアは0から1 (1が優れている)にスケーリングをした後に集計をおり、平均点は1点満点のスコアになります。JBBQについてはバイアススコアを使用しており、バイアススコアは0に近いほどバイアスがないことを示すため、1-バイアススコアの数字を総合評価に使用しています。
定義
	GLP : General Language Processing (汎用的言語性能)
	ALT : Alignment (アラインメント)
	Total AVG = (Avg. GLP + Avg. ALT)/2
﻿
Run set99
 
超過分0
 
30B以下13
﻿
﻿
﻿
Run set99
﻿
モデル比較﻿
Run set2
﻿
﻿
﻿
GLP_表現 : expression
🗂️ 該当評価データセット・フレームワークMT-bench: roleplay, humanities, writing
📋 結果
🔍 結果詳細
GLP_翻訳: translation
🗂️ 該当評価データセット・フレームワークjaster: alt-e-to-j, alt-j-to-e, wikicorpus-e-to-j, wikicorpus-j-to-e (それぞれ0shot, 2shotを実施)
📋 結果﻿
Run set99
﻿
🔍 結果詳細
GLP_要約: summarization適切な評価データセットとフレームワークを探索中。Not implemented yet
GLP_情報検索: information extraction
🗂️ 該当評価データセット・フレームワークjaster: jsquad (それぞれ0shot, 2shotを実施)
📋 結果﻿
Run set99
﻿
🔍 結果詳細﻿
Run set2
﻿
﻿
GLP_論理的推論: reasoning
🗂️ 該当評価データセット・フレームワークMT-bench: reasoning
📋 結果
🔍 結果詳細
GLP_数学的推論: mathematical reasoning
🗂️ 該当評価データセット・フレームワークjaster: mawps, mgsm (それぞれ0shot, 2shotを実施)
MT-bench: math
📋 結果
🔍 結果詳細
GLP_抽出: entity extraction
🗂️ 該当評価データセット・フレームワークjaster: wiki_ner, wiki_coreference, chABSA (それぞれ0shot, 2shotを実施)
MT-bench: extraction
📋 結果
🔍 結果詳細
GLP_知識・質問応答: knowledge/QA
🗂️ 該当評価データセット・フレームワークjaster: JCommonsenseQA, JEMHopQA, JMMLU, NIILC, aio(それぞれ0shot, 2shotを実施)
MT-bench: stem
📋 結果
🔍 結果詳細
GLP_英語: english
🗂️ 該当評価データセット・フレームワークjaster: MMLU (それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
GLP_意味解析: semantic analysis
🗂️ 該当評価データセット・フレームワークjaster: JNLI, JaNLI, JSeM, JSICK, Jamp(それぞれ0shot, 2shotを実施)
📋 結果
🔍 結果詳細
GLP_構文解析: syntactic analysis
🗂️ 該当評価データセット・フレームワーク
📋 結果
🔍 結果詳細
ALT_制御性: controllability
🗂️ 該当評価データセット・フレームワークjaster: 回答のフォーマットを自動評価できる指標 (chabsa, commonsensemoralja, jamp, janli, jblimp, jcola-in-domain, jcola-out-of-domain, jcommonsenseqa, jmmlu, jnli, jsem, jsick, kuci, mawps, mgsm, mmlu_en, wiki_dependency, wiki_ner)
LCTG bench
📋 結果﻿
Run set99
 
Run set 241
﻿
﻿
﻿
Run set0
﻿
🔍 結果詳細
ALT_倫理・道徳: ethics
🗂️ 該当評価データセット・フレームワークjaster: JcommonsenseMorality
📋 結果
🔍 結果詳細
毒性: ALT_toxicity
🗂️ 該当評価データセット・フレームワークLINEヤフー 信頼性評価データセット
📋 結果
🔍 結果詳細
ALT_バイアス: bias
🗂️ 該当評価データセット・フレームワークJBBQ
Nejumi Leaderboard3では論文で提案されている2つのバイアススコアの絶対値の平均値を使用しています。
📋 結果
🔍 結果詳細
ALT_真実性: truthfulness
🗂️ 該当評価データセット・フレームワークJTruthfulQA
﻿
📋 結果
🔍 結果詳細
ALT_堅牢性: robustness
🗂️ 該当評価データセット・フレームワーク
📋 結果
🔍 結果詳細﻿
Appendix
llm-jp-evalの深掘り
llm-jp-eval overview (0 shotと4shotそれぞれ)
llm-jp-evalリーダーボード詳細 (0 shotと4shotそれぞれ)
MT-bench-jpの深掘り
MT-bench overview
MT-bench output詳細
評価データセットの解説
llm-jp-eval (jasterを使用)
Japanese MT-Bench
LCTG-Bench
LINEヤフー 信頼性評価データセット
JcommonseMorality
BBQ/JBBQ﻿

Add a comment

Shinji Sakaguchi • 12 months ago

Please add the following model evaluations. - Claude 3.5 Haiku - Gemini 1.5 Pro 002 (001 already exists) - Gemini 1.5 Flash 002 (001 already exists) Thank you!

Tags: Articles, LLM

Iterate on AI agents and models faster. Try Weights & Biases today.

Nejumi LLMリーダーボード3

Nejumi LLMリーダーボード3 は新バージョンにアップデートされています-> こちら！

Nejumi LLM Leaderboard 3 has been superseded by a new version here﻿

Nejumi リーダーボードの 特徴

評価フレームワークの詳細

1. 汎用的言語性能 (General Language Processing, GLP)

2. 安全性能

a) アライメント (Alignment)

b) システム性能

3. ドメイン特化性能

リーダーボードのプライベート利用とお問い合わせ

その他の特化型リーダーボード

総合評価

モデル比較

GLP_表現 : expression

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_翻訳: translation

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_要約: summarization

GLP_情報検索: information extraction

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_論理的推論: reasoning

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_数学的推論: mathematical reasoning

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_抽出: entity extraction

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_知識・質問応答: knowledge/QA

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_英語: english

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_意味解析: semantic analysis

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

GLP_構文解析: syntactic analysis

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

ALT_制御性: controllability

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

ALT_倫理・道徳: ethics

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

毒性: ALT_toxicity

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

ALT_バイアス: bias

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

ALT_真実性: truthfulness

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

ALT_堅牢性: robustness

🗂️ 該当評価データセット・フレームワーク

📋 結果

🔍 結果詳細

Appendix

Nejumi LLM Leaderboard 3 has been superseded by a new version here

Nejumi リーダーボードの特徴

LINEヤフー信頼性評価データセット