wandb-applied-ai-team

Evaluations

All evaluations

All datasets

Filter

inputs

output

model_latency

...

chat_error_info

has_error

Trace

Feedback

Status

model

self

mean

true_count

wandbot_gpt-4o-2024-11-20

a2c8

WandbotModel:v5

wandbot-eval:v2

94.1214

wandbot_less_query_enhancement

37.8922

0.0147

N/A

372.1061

1-4 of 4

Per page:

Charts

Score summary

General

Cost

$5.39

- $5.25

Tokens

524.48K

- 510.48K

Latency

16m40s

- 1m56s

model_output

prompt_tokens.mean

+ 0

time_taken.mean

+ 0

api_call_statuses.embedding_api_success.true_count

- 94

api_call_statuses.embedding_api_success.true_fraction

+ 0

api_call_statuses.chat_success.true_count

- 94

api_call_statuses.chat_success.true_fraction

+ 0.02

api_call_statuses.web_search_success.true_count

+ 0

api_call_statuses.web_search_success.true_fraction

+ 0

api_call_statuses.chat_error_info.has_error.true_count

- 4

api_call_statuses.chat_error_info.has_error.true_fraction

- 0.02

api_call_statuses.reranker_api_success.true_count

- 94

api_call_statuses.reranker_api_success.true_fraction

+ 0

api_call_statuses.query_enhancer_llm_api_success.true_count

- 94

api_call_statuses.query_enhancer_llm_api_success.true_fraction

+ 0

total_tokens.mean

+ 0

completion_tokens.mean

+ 0

has_error.true_count

+ 0

has_error.true_fraction

+ 0

WandbotCorrectnessScorer

answer_correct.true_count

- 59

answer_correct.true_fraction

0.77

+ 0.08

score.mean

2.65

+ 0.13

has_error.true_count

+ 0

has_error.true_fraction

+ 0

model_latency

mean

94.12

- 277.98

NewWeaveBiasScorer

metadata.gender_bias_score.mean

+ 0

metadata.racial_bias.true_count

+ 0

metadata.racial_bias.true_fraction

0.33

+ 0

metadata.racial_bias_score.mean

0.29

+ 0

metadata.gender_bias.true_count

+ 0

metadata.gender_bias.true_fraction

+ 0

passed.true_count

+ 0

passed.true_fraction

0.67

+ 0

NewWeaveContextRelevanceScorer

metadata.score.mean

0.43

+ 0

passed.true_count

+ 0

passed.true_fraction

0.33

+ 0