weave-mixeval Workspace – Weights & Biases

Skip to main content

Evaluations

Filter

inputs

output

MixEvalScorer

AGIEval

ARC

BBH

Trace

Feedback

Status

model

self

true_count

true_fraction

true_count

true_fraction

true_count

Llama3p170bInstruct:v0

51

0.6145

3

0.75

11

44

0.5301

1

0.25

11

Mistral Large 2

Mistral_Large_2:v0

57

0.6747

2

0.5

11

Claude 3.5 Sonnet

Claude_3_5_Sonnet:v7

62

0.747

2

0.5

11

Llama405B_instruct:v4

54

0.653

2

0.5

11

44

0.5843

2

0.5

8

1-6 of 6

Per page:

50