[Draft] Nejumi Leaderboard4：更新の背景と評価項目

Created on June 18|Last edited on July 28

Comment

Weights & Biasesは、日本語に特化したLLMのリーダーボードを2023年より取り組み、2025年7月時点ではバージョン3まで開発し、運営してきました。
Nejumi LLMリーダーボード3
注目のLLMモデルの日本語能力を言語理解能力・応用能力・アライメントの広い観点で評価
﻿
Nejumi Leaderboard3の課題Nejumi Leaderboard4のアップデート主なアップデート追加したベンチマークSWE-benchBFCL (BFCL-ja-)ARC-AGI-1ARC-AGI-2Human Last ExamJHumanEvalJMMLU-ProJamC-QAM-IFEVALHalluLens (Japanese)タクソノミーの整理推論インフラストラクチャベンチマークの除外その他ベンチマーク名の変更入れなかったベンチマーク開発する中で気になったポイント
﻿
Nejumi Leaderboard3の課題﻿
﻿
大きな課題
2024年以降登場する高難易度の推論や知識が求められる評価ベンチマークが採用されておらず、上位層のモデルについて差分がなくなってきている
アプリケーション開発の中で、コーディングやツールユースで生成AI活用が進む中、それらのベンチマークでモデルが評価されていない
その他課題
採用しているベンチマークとそのバージョンがわかりづらい
複数の評価ツールと様々なモデルの実装が複雑になり、ライブラリのバージョン対立が生じやすくなっている
商用利用やデータ配布が禁止されているベンマークがあり、エンタープライズでの利用が困難であった。
﻿
Nejumi Leaderboard4のアップデート
主なアップデートプログラミング
追加したベンチマーク
SWE-bench﻿
BFCL (BFCL-ja-)概要
﻿
利用した問題・サンプリング方法
﻿
公式ベンチマークからの変更点
﻿
翻訳方法
﻿
各種リンク
公式ベンチマークGithub Repository: 
利用したバージョン: <commit idなど>
公式ベンチマークブログ: 
翻訳データ: 
注意点
﻿
﻿
ARC-AGI-1﻿
ARC-AGI-2﻿
Human Last Exam﻿
JHumanEval﻿
﻿
JMMLU-Pro﻿
JamC-QA﻿
M-IFEVAL﻿
HalluLens (Japanese)﻿
﻿
﻿
﻿
タクソノミーの整理﻿
﻿
推論インフラストラクチャ<W&B 山本さん記載>
<NVIDIA 山本さん記載>
JHumanEvalを実装するためにsandboxを導入
BFCLを実装するためにsandboxを導入
ベンチマークの除外LCTG: 商用ライセンスでの利用ができないため、LCTG開発者とも話をし、除外。今回はM-IFEVALを採用。
chABSA: 論理的な推論では導くことができない問題があったため。
wikicorpus-e-to-j, wikicorpus-j-to-e, wiki_ner, wiki_coreference, wiki_reading, wiki_pas, wiki_dependency: 論理的な推論では導くことができない問題があったため。 また、問題の質に対して実行時間の費用対効果も合わないと判断。
その他
ベンチマーク名の変更﻿
入れなかったベンチマークXL-Sumについては、参��回答の要約の長さがサンプルによってばらつきがあり、
開発する中で気になったポイント﻿
﻿
﻿
﻿

Add a comment

[Draft] Nejumi Leaderboard4：更新の背景と評価項目

Nejumi Leaderboard3の課題

Nejumi Leaderboard4のアップデート

主なアップデート

追加したベンチマーク

SWE-bench

BFCL (BFCL-ja-)

ARC-AGI-1

ARC-AGI-2

Human Last Exam

JHumanEval

JMMLU-Pro

JamC-QA

M-IFEVAL

HalluLens (Japanese)

﻿

タクソノミーの整理

推論インフラストラクチャ

ベンチマークの除外

その他

ベンチマーク名の変更

入れなかったベンチマーク

開発する中で気になったポイント