aime_evaluation Workspace – Weights & Biases

Skip to main content

Assets

All assets

Asset

Category

User

Last updated

Versions

Scorer

6 months ago

Qwen3_14B_OpenRouter_Model:v9

Model

6 months ago

AIME_2024_HF-evaluation:v0

Evaluation

6 months ago

qwen3_14b_openrouter:v0

Model

6 months ago

AIME_2024_HF:v0

Dataset

6 months ago

gpt4o_correctness:v0

Scorer

6 months ago

gpt4o_scorer_correctness:v0

Scorer

6 months ago

Dataset-v10-evaluation:v0

Evaluation

6 months ago

Dataset

6 months ago

AIME_2024_v10-evaluation:v0

Evaluation

6 months ago

AIME_2024_v10:v0

Dataset

6 months ago

AIME_2024-evaluation:v0

Evaluation

6 months ago

Dataset

6 months ago

qwen3-14b-openrouter-Evaluation:v1

Evaluation

6 months ago

Dataset

6 months ago

r1-free-Evaluation:v0

Evaluation

6 months ago

Model

6 months ago

r1-distill-qwen-Evaluation:v0

Evaluation

6 months ago

Total Rows: 66