ai-hacker-cup-benchmark Workspace – Weights & Biases

Skip to main content

Traces

All Ops

Filter

inputs

output

Trace

Feedback

Status

model

self

...mean

...true_count

...true_fraction

User

Called

Tokens

Cost

reflection o1-mini-5-trials

ReflectionSolver:v1

95.3632

13

0.52

1 year ago

509,646

$4.4256

reflection o1-preview-5-trials

ReflectionSolver:v0

330.353

13

0.52

1 year ago

491,867

$21.4333

o1-preview-5-trials

OneShotSolver:v7

220.679

9

0.36

1 year ago

273,547

$12.7703

gpt-4o-5-trials

OneShotSolver:v6

58.9544

5

0.2

1 year ago

110,325

$0.6534

o1-preview-1-trial

OneShotSolver:v5

336.8651

2

0.4

1 year ago

53,996

$2.5415

1-5

of 5