Nejumi LLMリーダーボード4 Deep Dive ALT (temp)
アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on August 26|Last edited on August 26
Comment

本取り組みは NVIDIA、ESTYLE,Inc.、マクニカ各社のエンジニアと共同で計画・開発を行っております。今後もコラボレーターを募集しておりますので、ご関心のある方はcontact-jp@wandb.comにご連絡ください。
評価フレームワークの詳細
LLM(大規模言語モデル)の評価は、モデルの能力向上と応用範囲の拡大に伴い、より包括的で多面的なアプローチが必要となっています。Nejumi Leaderboard 4では、既存ベンチマークの飽和問題に対応するため、評価の解像度を上げることを目指しました。
そのために、より高難度なベンチマークとしてHLE(テキストベース問題からの抜粋)とARC-AGI-2を追加しました。また、将来的な複合AIシステムやAgentとしてのユースケースを見据え、SWE-Bench Verifiedによるコーディング能力や、BFCLによるツール利用能力といった、より実践的な性能評価を大幅に強化しています。
一方で、評価軸の再編に伴い、旧バージョン(Nejumi 3)で採用していた一部のベンチマーク(例: LCTG、英語MMLU)は評価対象から除外しています。
本リーダーボードで用いたタクソノミー
1. 汎用的言語性能 (General Language Processing, GLP)
言語モデルの基礎能力を多角的に評価します。jasterやMT-benchを用いて、表現、翻訳、要約、情報抽出、推論、数学的推論、知識応答、意味解析、構文解析といった幅広い能力を測定します。
これらに加え、より高度な、あるいは特化した言語能力を評価するために以下のベンチマークを導入しています。
- 指示追従性 (Instruction Following): M-IFEval
- 高難度ベンチマーク:
- 抽象的推論 (Abstract Reasoning): ARC-AGI-2
- 言語理解の限界性能 (Advanced Language Understanding): HLE
2. 安全性能 (Safety Performance)
モデルが社会的に責任ある形で動作するかを評価します。
a) アライメント (Alignment)
- 制御性 (Controllability): jaster (選択肢問題におけるモデルの応答制御能力), M-IFEval
- 倫理・道徳 (Ethics/Morality): jaster (JCommonsenseMorality)
- 毒性 (Toxicity): LINEヤフー 信頼性評価データセット
- バイアス (Bias): JBBQ
- 真実性・忠実性 (Truthfulness & Faithfulness): JTruthfulQA, そして新たに追加されたHalluLensで多角的に評価します。
- 堅牢性 (Robustness): jaster (JMMLU拡張版)
3. ドメイン特化性能 (Domain-specific Performance)
特定の専門分野におけるモデルの性能を評価します。特に、Agentユースケースへの適性を測るため、以下の項目を追加・強化しました。
- プログラミング (Programming): SWE-Bench Verified, BFCL (Code Generation), HumanEval-ja (jaster), MT-bench (coding)
- ツール利用 (Tool Usage): BFCL (Tool Usage)
- その他 (Others): 今回は実施せず、個別対応を検討
真実性
Hallulens
Run set
59
JTruthfulQA
Run set
59
Run set
2
Add a comment