Skip to main content

[Draft] Nejumi Leaderboard4:更新の背景と評価項目

Created on June 18|Last edited on July 28
Weights & Biasesは、日本語に特化したLLMのリーダーボードを2023年より取り組み、2025年7月時点ではバージョン3まで開発し、運営してきました。



Nejumi Leaderboard3の課題



大きな課題
  • 2024年以降登場する高難易度の推論や知識が求められる評価ベンチマークが採用されておらず、上位層のモデルについて差分がなくなってきている
  • アプリケーション開発の中で、コーディングやツールユースで生成AI活用が進む中、それらのベンチマークでモデルが評価されていない
その他課題
  • 採用しているベンチマークとそのバージョンがわかりづらい
  • 複数の評価ツールと様々なモデルの実装が複雑になり、ライブラリのバージョン対立が生じやすくなっている
  • 商用利用やデータ配布が禁止されているベンマークがあり、エンタープライズでの利用が困難であった。


Nejumi Leaderboard4のアップデート

主なアップデート

  • プログラミング

追加したベンチマーク

SWE-bench



BFCL (BFCL-ja-)

  • 概要
    • 
  • 利用した問題・サンプリング方法
    • 
  • 公式ベンチマークからの変更点
    • 
  • 翻訳方法
    • 
  • 各種リンク
    • 公式ベンチマークGithub Repository:
      • 利用したバージョン: <commit idなど>
    • 公式ベンチマークブログ:
    • 翻訳データ:
  • 注意点
    • 


ARC-AGI-1



ARC-AGI-2



Human Last Exam



JHumanEval




JMMLU-Pro



JamC-QA



M-IFEVAL



HalluLens (Japanese)








タクソノミーの整理




推論インフラストラクチャ

  • <W&B 山本さん記載>
  • <NVIDIA 山本さん記載>
  • JHumanEvalを実装するためにsandboxを導入
  • BFCLを実装するためにsandboxを導入

ベンチマークの除外

  • LCTG: 商用ライセンスでの利用ができないため、LCTG開発者とも話をし、除外。今回はM-IFEVALを採用。
  • chABSA: 論理的な推論では導くことができない問題があったため。
  • wikicorpus-e-to-j, wikicorpus-j-to-e, wiki_ner, wiki_coreference, wiki_reading, wiki_pas, wiki_dependency: 論理的な推論では導くことができない問題があったため。 また、問題の質に対して実行時間の費用対効果も合わないと判断。

その他

ベンチマーク名の変更

  • 

入れなかったベンチマーク

  • XL-Sumについては、参考回答の要約の長さがサンプルによってばらつきがあり、

開発する中で気になったポイント