Skip to main content

Nejumi LLMリーダーボード4(バックアップ)

アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on August 26|Last edited on August 26

本取り組みは NVIDIA、ESTYLE,Inc.、マクニカ各社のエンジニアと共同で計画・開発を行っております。今後もコラボレーターを募集しておりますので、ご関心のある方はcontact-jp@wandb.comにご連絡ください。

評価フレームワークの詳細

LLM(大規模言語モデル)の評価は、モデルの能力向上と応用範囲の拡大に伴い、より包括的で多面的なアプローチが必要となっています。Nejumi Leaderboard 4では、既存ベンチマークの飽和問題に対応するため、評価の解像度を上げることを目指しました。
そのために、より高難度なベンチマークとしてHLE(テキストベース問題からの抜粋)とARC-AGI / ARC-AGI-2を追加しました。また、将来的な複合AIシステムやAgentとしてのユースケースを見据え、SWE-Bench Verifiedによるコーディング能力や、BFCLによるツール利用能力といった、より実践的な性能評価を大幅に強化しています。
さらに、安全性についても真実性評価に従来のJTruthfulQAに加えてHalluLensを追加し、制御性評価にM-IFEVALを採用しています。
一方で、評価軸の再編に伴い、旧バージョン(Nejumi 3)で採用していた一部のベンチマーク(例: LCTG、英語MMLU、その他Jasterの一部)は評価対象から除外しています。

本リーダーボードで用いたタクソノミー



Run: taxonomy-colab-midweight
1


評価タクソノミーの詳細

サブカテゴリ名をクリックすると項目ごとの詳細な結果を確認することができます。

1. 汎用的言語性能(GLP)

    • 表現: MT-bench(roleplay, writing, humanities)
      • 自然なロールプレイ/記述力/人文系応答の品質
    • 翻訳: Jaster(alt-e-to-j, alt-j-to-e)
      • JA↔EN 翻訳(0/ few 平均)
    • 情報検索: Jaster(jsquad)
      • 日本語QA(0/ few 平均)
  • 推論能力
    • 抽象的推論: ARC-AGI(arc-agi-1, arc-agi-2)※有効時のみ集計
      • 図形/パターンの抽象一般化
    • 論理的推論: MT-bench(reasoning)
      • 連鎖推論・説明可能性
    • 数学的推論: Jaster(mawps, mgsm), MT-bench(math)
      • 数学文章題・計算整合性
  • 知識・質問応答
    • 一般的知識: Jaster(jcommonsenseqa, jemhopqa, niilc, aio), MT-bench(stem)
      • 常識・マルチホップ・基礎STEM
    • 専門的知識: Jaster(jmmlu, mmlu_prox_ja), HLE
      • 医学/法/工学など高難度分野(HLEはここに内包)
  • 基礎的言語性能
    • 意味解析: Jaster(jnli, janli, jsem, jsick, jamp)
      • 含意判断・意味類似性
    • 構文解析: Jaster(jcola-in-domain, jcola-out-of-domain, jblimp)
      • 文法的受容性
  • アプリケーション開発
    • コーディング: SWE-Bench Verified, HumanEval‑ja, MT-bench(coding)
      • 実課題修正率/関数合成/コーディング品質(利用可能な指標を平均)
    • 関数呼び出し: BFCL
      • 単一/複数/並列/マルチターン、無関係検出 等の総合精度(Overall Acc)



2. アラインメント(ALT)

  • 制御性(Controllability): Jaster Control(0/ few 平均), M‑IFEVAL
    • 指示追従・制約遵守・形式/スタイル/役割の一貫性
  • 倫理・道徳(Ethics/Morality): Jaster(commonsensemoralja)
    • 社会通念に沿った倫理判断(few-shot)
  • 毒性(Toxicity): LINEヤフー信頼性評価
    • 「公平性・社会規範・禁止行為・違反カテゴリ」の平均
  • バイアス(Bias): JBBQ
    • 1 − avg_abs_bias_score を採用
  • 真実性(Truthfulness & Faithfulness): JTruthfulQA, HalluLens
    • 両方あれば平均。なければ JTruthfulQA の overall_score を採用
  • 堅牢性(Robustness): JMMLU Robust
    • robust_score により形式攪乱への一貫性を評価


メインリーダーボード


Run set
59





Run set
1