ichikara-test Workspace – Weights & Biases

Skip to main content

Evaluations

All evaluations

All datasets

Filter

inputs

output

model_latency

...

domain_score

ビジネス

Trace

Feedback

Status

model

self

mean

mean

Evaluation.evaluate

ichikara_human_eval:v1

0.2124

3.7333

Evaluation.evaluate

ichikara_human_eval:v1

0.3216

3.7

Evaluation.evaluate

ichikara_human_eval:v1

0.1772

4.4

Evaluation.evaluate

test_20240905:v53

0.1959

3.6897

Evaluation.evaluate

test_20240905:v53

0.2246

4.4138

Evaluation.evaluate

test_20240905:v53

0.2062

3.7241

Evaluation.evaluate

test_20240905:v24

19.6149

4.6

Evaluation.evaluate

test_20240905:v24

6.6422

4.7333

Evaluation.evaluate

test_20240905:v24

20.7779

4.1667

1-9

of 9

Charts

3

Score summary

2

General

Cost

$5.59

+ $0.00

Tokens

196.76K

- 5.46K

Latency

5.69s

- 2m47s

scores

総合評価.mean

3.7

- 0.56

individual_score.正確性.mean

3.74

- 0.56

individual_score.流暢性.mean

4.43

- 0.26

individual_score.関連性.mean

4.54

- 0.06

individual_score.情報量.mean

4.43

+ 0.13

domain_score.経済.mean

3.48

- 0.96

domain_score.法律.mean

3.74

- 0.21

domain_score.医療.mean

3.55

- 0.9

domain_score.ビジネス.mean

3.73

- 0.43

domain_score.教育.mean

3.96

- 0.18

model_latency

mean

0.21

- 20.57