[Draft] Nejumi Leaderboard4:更新の背景と評価項目
Created on June 18|Last edited on July 28
Comment
Weights & Biasesは、日本語に特化したLLMのリーダーボードを2023年より取り組み、2025年7月時点ではバージョン3まで開発し、運営してきました。
Nejumi Leaderboard3の課題Nejumi Leaderboard4のアップデート主なアップデート追加したベンチマークSWE-benchBFCL (BFCL-ja-)ARC-AGI-1ARC-AGI-2Human Last ExamJHumanEvalJMMLU-ProJamC-QAM-IFEVALHalluLens (Japanese)タクソノミーの整理推論インフラストラクチャベンチマークの除外その他ベンチマーク名の変更入れなかったベンチマーク開発する中で気になったポイント
Nejumi Leaderboard3の課題
大きな課題
- 2024年以降登場する高難易度の推論や知識が求められる評価ベンチマークが採用されておらず、上位層のモデルについて差分がなくなってきている
- アプリケーション開発の中で、コーディングやツールユースで生成AI活用が進む中、それらのベンチマークでモデルが評価されていない
その他課題
- 採用しているベンチマークとそのバージョンがわかりづらい
- 複数の評価ツールと様々なモデルの実装が複雑になり、ライブラリのバージョン対立が生じやすくなっている
- 商用利用やデータ配布が禁止されているベンマークがあり、エンタープライズでの利用が困難であった。
Nejumi Leaderboard4のアップデート
主なアップデート
- プログラミング
追加したベンチマーク
SWE-bench
BFCL (BFCL-ja-)
- 概要
-
- 利用した問題・サンプリング方法
-
- 公式ベンチマークからの変更点
-
- 翻訳方法
-
- 各種リンク
- 公式ベンチマークGithub Repository:
- 利用したバージョン: <commit idなど>
- 公式ベンチマークブログ:
- 翻訳データ:
- 注意点
-
ARC-AGI-1
ARC-AGI-2
Human Last Exam
JHumanEval
JMMLU-Pro
JamC-QA
M-IFEVAL
HalluLens (Japanese)
タクソノミーの整理
推論インフラストラクチャ
- <W&B 山本さん記載>
- <NVIDIA 山本さん記載>
- JHumanEvalを実装するためにsandboxを導入
- BFCLを実装するためにsandboxを導入
ベンチマークの除外
- LCTG: 商用ライセンスでの利用ができないため、LCTG開発者とも話をし、除外。今回はM-IFEVALを採用。
- chABSA: 論理的な推論では導くことができない問題があったため。
- wikicorpus-e-to-j, wikicorpus-j-to-e, wiki_ner, wiki_coreference, wiki_reading, wiki_pas, wiki_dependency: 論理的な推論では導くことができない問題があったため。 また、問題の質に対して実行時間の費用対効果も合わないと判断。
その他
ベンチマーク名の変更
-
入れなかったベンチマーク
- XL-Sumについては、参考回答の要約の長さがサンプルによってばらつきがあり、
開発する中で気になったポイント
Add a comment