Skip to main content

アプリケーション開発

アプリケーション開発能力と安全性評価を強化し、実用的なLLM選定を支援
Created on August 26|Last edited on August 26

コーディング (coding)

SWE-Bench Verified, HumanEval‑ja, MT-bench(coding)


📋 カテゴリ別リーダーボード

jhumaneval_score
coding_mtbench
AVG
55
6
46
9
17
51
run.name
swebench_resolution_rate
Run set
59



関数呼び出し (function calling)

BFCL

Run set
59



List<File<(table)>>