Nejumi LLMリーダーボード4
アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on July 28|Last edited on August 27
Comment

LLM(大規模言語モデル)の評価は、モデルの能力向上と応用範囲の拡大に伴い、より包括的で多面的なアプローチが必要となっています。Nejumi Leaderboard 4では、既存ベンチマークの飽和問題に対応するため、評価の解像度を上げることを目指しました。
評価タクソノミーの詳細(クリックで展開して深掘り)
メインリーダーボード
トータルスコア順にソートしてあります(左端の数字はランキングではなく評価実行ジョブ番号です)
Run set
61
各モデルの特徴をカテゴリ別にブレイクダウン
下のモデル一覧から👁️のアイコンで選択すれば、表示対象モデルを変更できます。
Run set
2
Add a comment