london-workshop-2025 Workspace – Weights & Biases

Skip to main content

Evaluations

Filter

inputs

output

deep_research_scores

model_latency

Trace

Feedback

Status

model

self

comprehensiveness

insight

instruction_following

overall

readability

mean

SimpleAgent_openai/gpt-oss-20b

DeepResearchWeaveModel:v59

SimpleAgent_openai-gpt-oss-20b:v0

0.4273

0.4146

0.4928

0.4462

0.4828

58.4402

SimpleAgent_openai/gpt-oss-20b

DeepResearchWeaveModel:v58

SimpleAgent_openai-gpt-oss-20b:v0

N/A

N/A

N/A

N/A

N/A

N/A

SimpleAgent_openai/gpt-oss-20b

DeepResearchWeaveModel:v57

SimpleAgent_openai-gpt-oss-20b:v0

N/A

N/A

N/A

N/A

N/A

N/A

SimpleAgent_openai/gpt-oss-120b

DeepResearchWeaveModel:v56

SimpleAgent_openai-gpt-oss-120b:v0

0.4434

0.4306

0.4925

0.4573

0.4908

221.9808

SimpleAgent_openai/gpt-oss-20b

DeepResearchWeaveModel:v55

SimpleAgent_openai-gpt-oss-20b:v0

0.417

0.3841

0.4629

0.4318

0.459

1167.3801

DeepResearchAgent_Qwen/Qwen3-235B-A22B-Instruct-2507

DeepResearchWeaveModel:v54

DeepResearchAgent_Qwen-Qwen3-235B-A22B-Instruct-2507:v0

N/A

N/A

N/A

N/A

N/A

N/A

DeepResearchAgent_Qwen/Qwen3-235B-A22B-Instruct-2507

DeepResearchWeaveModel:v53

DeepResearchAgent_Qwen-Qwen3-235B-A22B-Instruct-2507:v0

N/A

N/A

N/A

N/A

N/A

N/A

DeepResearchAgent_OpenPipe/Qwen3-14B-Instruct

DeepResearchWeaveModel:v52

DeepResearchAgent_OpenPipe-Qwen3-14B-Instruct:v0

0.2645

0.242

0.3217

0.2781

0.3183

205.6566

DeepResearchAgent_moonshotai/Kimi-K2-Instruct

DeepResearchWeaveModel:v51

DeepResearchAgent_moonshotai-Kimi-K2-Instruct:v0

0.3675

0.357

0.4113

0.3786

0.401

263.4442

DeepResearchAgent_Qwen/Qwen3-235B-A22B-Instruct-2507

DeepResearchWeaveModel:v48

DeepResearchAgent_Qwen-Qwen3-235B-A22B-Instruct-2507:v0

0.392

0.3767

0.4527

0.4084

0.4444

150.1829

SimpleAgent_OpenPipe/Qwen3-14B-Instruct

DeepResearchWeaveModel:v47

SimpleAgent_OpenPipe-Qwen3-14B-Instruct:v0

0.3106

0.2854

0.403

0.3367

0.3976

211.1049

SimpleAgent_moonshotai/Kimi-K2-Instruct

DeepResearchWeaveModel:v44

SimpleAgent_moonshotai-Kimi-K2-Instruct:v1

0.344

0.3418

0.3985

0.365

0.4035

177.3765

SimpleAgent_Qwen/Qwen3-235B-A22B-Instruct-2507

DeepResearchWeaveModel:v41

SimpleAgent_Qwen-Qwen3-235B-A22B-Instruct-2507:v9

0.3961

0.378

0.4665

0.4152

0.4585

85.2468

deep_cape_Qwen/Qwen3-235B-A22B-Instruct-2507

DeepResearchWeaveModel:v40

deep_cape_Qwen-Qwen3-235B-A22B-Instruct-2507:v2

0.4079

0.3919

0.5067

0.438

0.4704

197.773

1-37

of 37