UltraFeedback_archive Table – Weights & Biases

Skip to main content

Chenmientan's workspace

Runs

1

accuray

grad_norm

loss

rewards/chosen

rewards/margin

rewards/rejected

Finished

-

chenmientan

3mo ago

29m 24s

-

true

16

0

0

all-linear

5.0000e-7

1

8192

allenai/Llama-3.1-Tulu-3-8B-SFT

false

false

allenai/Llama-3.1-Tulu-3-8B-SFT

ckpts/tulu-3-8b

true

1

0.1

0.01

128

1024

Chenmien/UltraFeedback

0

0.1

false

tulu-3-8b

1

UltraFeedback

0.62025

35.43274

0.41071

-0.37245

0.38284

-0.755

1-1

of 1