aime_evaluation Workspace – Weights & Biases

Skip to main content

Assets

Operations

Op

Calls

User

Last updated

Versions

6 months ago

Scorer.summarize:v0

6 months ago

openai.chat.completions.create:v6

6 months ago

gpt4o_scorer:v38

6 months ago

qwen3_14b_openrouter_inference:v1

6 months ago

Qwen3_14B_OpenRouter_Model.predict:v9

6 months ago

Model.predict:v0

6 months ago

Evaluation.summarize:v3

6 months ago

Evaluation.evaluate:v4

6 months ago

Evaluation.predict_and_score:v4

6 months ago

gpt4o_correctness:v0

6 months ago

gpt4o_scorer_correctness:v0

6 months ago

R1FreeModel.predict:v0

6 months ago

R1DistillQwenModel.predict:v0

6 months ago

google.generativeai.GenerativeModel.generate_content:v0

7 months ago

Gemini20FlashModel.predict:v2

7 months ago

Gemini25ProExpModel.predict:v1

7 months ago

anthropic.Messages.stream:v0

8 months ago

Total Rows: 46