推論能力
アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on August 26|Last edited on August 26
Comment
抽象的推論 (abstract reasoning)
arc-agi-1, arc-agi-2
📋 カテゴリ別リーダーボード
Run set
59
論理的推論 (logical reasoning)
MT-bench(reasoning)
Run set
59
数学的推論 (mathematical reasoning)
Jaster(mawps, mgsm), MT-bench(math)
Run set
59
Add a comment