backup Nejumi-leaderboard Neo
日本語の一問一答形式のベンチマークタスクと生成タスクの両方の精度を測ったリーダーボードです。
Created on December 26|Last edited on December 26
Comment
Introductionllm-jp-evalMT-bench 総合評価MT-benchMT-bench-jaのリーダーボードMT-bench-jaのoutput詳細llm-jp-eval (jaster)llm-jp-evalのリーダーボードllm-jp-evalのoutput詳細
Introduction
このリーダーボードはWeights & Biases Japanが中心に運営しています。オープンおよびプロプライエタリのLLMモデルを下記のタスクに対して行った評価結果を掲載しています。
追加のモデル検証の依頼がありましたら、企業・組織のメールアドレスにて、contact-jp@wandb.comまで連絡ください。なお、githubは公開していますので、ご自身の環境で評価を行なっていただくこともできます。
💡
評価タスク
- LLM-jpが公開し、Weights & Biasesの鎌田も開発に関わっている評価体系llm-jp-eval
- lm-sysが公開しているMT-benchを、Stability AIが作成した日本語タスク
このリーダーボードの特徴
- 一問一答形式のベンチマークタスクと生成タスクを同時に評価 👓
- llm-jp-evalについては、モデルの素の能力をはかるために、zero-shotで辛口評価 🌶️ (評価が完全一致になっているタスクにおいては、スペースが含まれているだけで間違い扱いになっているケースがある。この点については、それ以外の課題も総合的に判断し、今後評価方法を少しupdateする予定あり)
- wandbのTable機能を用いて、平均スコアではなく、一問ずつの深掘りも可能 (llm-jp-evalに関してはtestデータの中を確認できないように、参考としてdevデータの履歴を表示しています) 🔍
- wandbのReportから、実際に行った実験まで辿ることが可能 🛣️
このリーダーボードのgithub
このリーダーボードのgithubはhttps://github.com/wandb/llm-jp (現状はbranch: generative_eval)です。下記のrepositoryをsubmodule(MT-benchについてはForkしたものをSubmodule)とし、リーダーボードを作成しやすいように変更を加えたbranchを新しくそれぞれの中に作っています。それらを使い、最終的なリーダーボードとしています。
llm-jp-eval
LLM-jpでは公開されている評価データセットに前処理を施したデータセットを提供しています。 全てのデータセットの訓練データをチューニング用データとしても変換しており、LLM-jpではこのデータセットをjaster(j + asterisk)と呼んでいます(詳細:llm-jp-evalのDataset.md)。また、jasterを使った評価ツールであるllm-jp-eval(github)も同時に公開しています。llm-jp-evalは、以下の機能を提供しています。
- 評価データのプロンプトと同形式のインストラクションデータ (jaster) を生成
- 既存の日本語評価データを利用し、テキスト生成タスクの評価データセットに変換
- 複数データセットを横断して大規模言語モデルの評価を実行
v1.1.0時点で対応されているデータセットの一覧は下記の通りです。
- RC (Reading Comprehension): JSQuAD
- MC (Multi-Choice QA): JCommonsenseQA
- EL (Entity Linking) : chABSA
- FA (Fundamental Analysis): Wikipedia Annotated Corpus (wiki_reading, wiki_ner, wiki_dependency, wiki_pas, wiki_coreference)
MT-bench
MT-benchはllm-sysによって開発されたマルチターンの質問を含む、慎重にキュレーションされたLLMのベンチマークです(papepaper / github)。また、Stability AIが日本語タスクを作成し、公開しています(日本語タスクgithub)。これらの質問は、LLMがマルチターンダイアログのモデルの会話の流れと指示に従う能力の評価を目的としており、「一般的なユースケース」と「挑戦的な指示」の両方が含まれています。質問の数は80問であり、下記の8つのカテゴリに分類をされています。
- Writing
- Roleplay
- Extraction
- Reasoning
- Math
- Coding
- Knowledge I (STEM)
- Knowledge II (humanities/social science)
総合評価
※ llm-jp-evalについては、各データ100問に対する評価を計算しています。
Run: morning-universe-71
2
MT-bench
MT-bench-jaのリーダーボード
Run: morning-universe-71
2
MT-bench-jaのoutput詳細
表示させたいモデルを下の👁️マークを教えて選択してください
Run: morning-universe-71
2
llm-jp-eval (jaster)
llm-jp-evalのリーダーボード
Run: morning-universe-71
2
llm-jp-evalのoutput詳細
表示させたいモデルを下の👁️マークを教えて選択してください
Run: morning-universe-71
2
Add a comment