weave-rag-lc-demo Workspace – Weights & Biases

Skip to main content

Evaluations

Filter

inputs

output

Trace

Feedback

Status

model

self

...true_count

...true_fraction

eval-2025-08-26-friendly-fish

Simple-Model:v0

Demo-evaluation:v0

3

1

eval-2025-08-26-calm-flower

Simple-Model:v0

Demo-evaluation:v0

3

1

eval-2025-08-26-noble-rose

Simple-Model:v0

Demo-evaluation:v0

2

0.6667

eval-2025-08-26-noble-dawn

Simple-Model:v0

Demo-evaluation:v0

3

1

Phi-1.5 Chat Model Eval

gen_eval_dataset-evaluation:v4

N/A

N/A

Gemini 1.5 Pro Chat Model Eval

gen_eval_dataset-evaluation:v4

N/A

N/A

Gemini 1.5 Flash Chat Model Eval

gen_eval_dataset-evaluation:v4

N/A

N/A

Evaluation.evaluate

gen_eval_dataset-evaluation:v3

N/A

N/A

Evaluation.evaluate

gen_eval_dataset-evaluation:v2

N/A

N/A

Phi-1.5 Chat Model Eval

gen_eval_dataset-evaluation:v1

N/A

N/A

Phi-1.5 Chat Model Eval

gen_eval_dataset-evaluation:v0

N/A

N/A

GPT-3.5-Turbo Chat Model Eval

gen_eval_dataset-evaluation:v1

N/A

N/A

GPT-4 Chat Model Eval

gen_eval_dataset-evaluation:v1

N/A

N/A

1-13 of 13

Per page:

50

Charts

3

Score summary

5

General

Cost

$0.25

- $0.34

Tokens

23.66K

- 8.24K

Latency

4.24s

- 11.81s

CorrectnessLLMJudge

answer correct.true_count

14

- 3

answer correct.true_fraction

0.58

- 0.13

answer correct.stderr

0.1

+ 0.02

HallucinationLLMJudge

follows from source.true_count

12

- 12

follows from source.true_fraction

0.5

- 0.5

eval_retrieval

first retrieval correct.true_count

15

+ 0

first retrieval correct.true_fraction

0.63

+ 0

model_latency

mean

1.73

- 3.19

Correctness

score.true_count

3

+ 0

score.true_fraction

1

+ 0