Skip to main content

推論能力

アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on August 26|Last edited on August 26

抽象的推論 (abstract reasoning)

arc-agi-1, arc-agi-2


📋 カテゴリ別リーダーボード

arc-agi-1
arc-agi-2
2
11
57
4
7
1
run.name
AVG
Run set
59



論理的推論 (logical reasoning)

MT-bench(reasoning)

Run set
59




数学的推論 (mathematical reasoning)

Jaster(mawps, mgsm), MT-bench(math)

Run set
59



List<File<(table)>>