アプリケーション開発
アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on August 26|Last edited on August 26
Comment
コーディング (coding)
SWE-Bench Verified, HumanEval‑ja, MT-bench(coding)
📋 カテゴリ別リーダーボード
Run set
59
関数呼び出し (function calling)
BFCL
Run set
59
Add a comment