ai-hacker-cup-benchmark Workspace – Weights & Biases

Skip to main content

Traces

All Ops

Filter

inputs

output

model_latency

scorer

solution_passed

Trace

Feedback

Status

model

self

mean

true_count

true_fraction

User

Called

Tokens

Cost

reflection o1-mini-5-trials

ReflectionSolver:v1

95.3632

13

0.52

12 months ago

509,646

$4.4256

reflection o1-preview-5-trials

ReflectionSolver:v0

330.353

13

0.52

12 months ago

491,867

$21.4333

o1-preview-5-trials

OneShotSolver:v7

220.679

9

0.36

12 months ago

273,547

$12.7703

gpt-4o-5-trials

OneShotSolver:v6

58.9544

5

0.2

12 months ago

110,325

$0.6534

o1-preview-1-trial

OneShotSolver:v5

336.8651

2

0.4

12 months ago

53,996

$2.5415

1-5 of 5

Per page:

50