wandbot-eval2 Workspace – Weights & Biases

Skip to main content

Evaluations

Filter

inputs

output

Trace

Feedback

Status

model

self

...true_count

...true_fraction

Evaluation.evaluate

EvaluatorModel:v12

2

1

Evaluation.evaluate

EvaluatorModel:v12

1

1

Evaluation.evaluate

EvaluatorModel:v12

N/A

N/A

Evaluation.evaluate

EvaluatorModel:v12

76

0.8

Evaluation.evaluate

EvaluatorModel:v12

2

1

Evaluation.evaluate

EvaluatorModel:v12

N/A

N/A

Evaluation.evaluate

EvaluatorModel:v12

N/A

N/A

Evaluation.evaluate

EvaluatorModel:v12

N/A

N/A

top_k@10|threshold@0.5

EvaluatorModel:v11

18

0.2195

top_k@10|threshold@0.3

EvaluatorModel:v10

13

0.1566

top_k@15|threshold@0.3

EvaluatorModel:v9

14

0.1772

default-top_k@15

EvaluatorModel:v8

11

0.131

default-top_k@5

EvaluatorModel:v7

14

0.1818

with_few-shot-examples

EvaluatorModel:v6

11

0.1196

with_wandbot-system-prompt

EvaluatorModel:v5

19

0.2135

evaluate-default

EvaluatorModel:v4

18

0.1915

1-17 of 17

Per page:

50

Charts

3

Score summary

3

General

Cost

$1.23

- $3.09

Tokens

122.42K

- 293.27K

Latency

2m22s

+ 42.83s

model_output

answer_in_context.true_count

82

- 11

answer_in_context.true_fraction

1

+ 0

total_tokens.mean

9.61K

+ 825

prompt_tokens.mean

8.72K

+ 881

completion_tokens.mean

890.5

- 56

time_taken.mean

111.73

+ 74.01

get_answer_correctness

answer_correctness.true_count

2

- 17

answer_correctness.true_fraction

1

+ 0.8

model_latency

mean

117.63

+ 106.53