Skip to main content

Nejumi LLMリーダーボード4

アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on July 28|Last edited on August 27

LLM(大規模言語モデル)の評価は、モデルの能力向上と応用範囲の拡大に伴い、より包括的で多面的なアプローチが必要となっています。Nejumi Leaderboard 4では、既存ベンチマークの飽和問題に対応するため、評価の解像度を上げることを目指しました。
𝕏でシェア ❤️ 今回のアップデート内容をまとめた開発者ブログはこちら 👂リリース記念ウェビナーはこちらから登録
📄📄📄「モデルの評価も重要だが、生成AIアプリケーション評価はもっと重要」と思った方向けの最新ホワイトペーパー

評価タクソノミーの詳細(クリックで展開して深掘り)

メインリーダーボード

トータルスコア順にソートしてあります(左端の数字はランキングではなく評価実行ジョブ番号です)

model_size_category
汎用的言語性能(GLP)_AVG
GLP_応用的言語性能
GLP_推論能力
GLP_知識・質問応答
GLP_基礎的言語性能
GLP_アプリケーション開発
GLP_表現
GLP_翻訳
GLP_情報検索
GLP_抽象的推論
GLP_論理的推論
GLP_数学的推論
GLP_一般的知識
GLP_専門的知識
GLP_意味解析
GLP_構文解析
GLP_コーディング
GLP_関数呼び出し
アラインメント(ALT)_AVG
ALT_制御性
ALT_倫理・道徳
ALT_毒性
ALT_バイアス
ALT_真実性
ALT_堅牢性
AVG_jaster_0shot
AVG_jaster_2shots
AVG_mtbench
AVG_swebench
model_size
model_release_date
9
4
5
6
13
59
3
14
1
45
2
58
20
18
10
51
50
41
model_name
TOTAL_SCORE
Run set
61



各モデルの特徴をカテゴリ別にブレイクダウン

下のモデル一覧から👁️のアイコンで選択すれば、表示対象モデルを変更できます。

Run set
2




List<File<(table)>>