Comment
runs.summary["leaderboard_table"]
- 6 of 99
o3-2025-04-16
api
0.8064
0.8578
0.8321
0.9117
0.867
0.8562
anthropic/claude-sonnet-4
api
0.7712
0.8797
0.8255
0.9483
0.8677
0.816
o1-2024-12-17
api
0.7971
0.8518
0.8244
0.9233
0.8647
0.8432
anthropic/claude-3.7-sonnet:thinking
api
0.7754
0.8611
0.8182
0.895
0.869
0.8576
anthropic.claude-3-5-sonnet-20240620-v1:0
api
0.7686
0.8644
0.8165
0.9033
0.8683
0.8138
anthropic/claude-3.7-sonnet
api
0.7765
0.8537
0.8151
0.87
0.8697
0.871
model_name
model_size_category
汎用的言語性能(GLP)_AVG
アラインメント(ALT)_AVG
TOTAL_AVG
GLP_表現
GLP_翻訳
GLP_情報検索
GLP_推論
GLP_数学的推論
GLP_抽出
GLP_知識・質問応答
GLP_英語
GLP_意味解析
GLP_構文解析
ALT_制御性
ALT_倫理・道徳
ALT_毒性
ALT_バイアス
ALT_堅牢性
AVG_jaster_0shot
AVG_jaster_2shots
AVG_mtbench
AVG_lctg
16
6
40
21
95
22
Run set
99
Add a comment
Created with ❤️ on Weights & Biases.
https://wandb.ai/wandb-japan/llm-leaderboard3/reports/Weave-empty-24-07-29-17-24-24---Vmlldzo4ODUzNjQ2