aime_evaluation Workspace – Weights & Biases

Skip to main content

Assets

Evaluations

Evaluation

Category

User

Last updated

Versions

AIME_2024_HF-evaluation:v0

Evaluation

6 months ago

Dataset-v10-evaluation:v0

Evaluation

6 months ago

AIME_2024_v10-evaluation:v0

Evaluation

6 months ago

AIME_2024-evaluation:v0

Evaluation

6 months ago

qwen3-14b-openrouter-Evaluation:v1

Evaluation

6 months ago

r1-free-Evaluation:v0

Evaluation

6 months ago

r1-distill-qwen-Evaluation:v0

Evaluation

6 months ago

gemini-2.0-flash-Evaluation:v1

Evaluation

7 months ago

gemini-2.5-pro-exp-Evaluation:v2

Evaluation

7 months ago

Claude-3.7-AIME-Evaluation:v6

Evaluation

8 months ago

standard-Evaluation:v0

Evaluation

8 months ago

thinking_8k-Evaluation:v0

Evaluation

8 months ago

thinking_4k-Evaluation:v0

Evaluation

8 months ago

thinking_16k-Evaluation:v0

Evaluation

8 months ago

r1o3verifier-Evaluation:v3

Evaluation

8 months ago

base-gpt4o-Evaluation:v0

Evaluation

9 months ago

budget-forcing-gpt4o-Evaluation:v0

Evaluation

9 months ago

finetuned-gpt4o-Evaluation:v1

Evaluation

9 months ago

Total Rows: 31