GRPO comparison Table – Weights & Biases

Skip to main content

Baiqingl's workspace

Runs

4

actor_rollout_ref.actor.checkpoint.contents

Finished

-

baiqingl

3mo ago

1s

-

false

unsloth/Qwen3-4B-Base

true

false

false

true

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

Finished

-

baiqingl

3mo ago

1s

-

false

unsloth/Qwen3-4B

true

false

false

true

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

Finished

-

baiqingl

3mo ago

1s

-

-

-

-

-

-

-

["model","optimizer","extra"]

0.2

3

0.2

0.2

0

-1

false

false

true

true

0

1

0

low_var_kl

seq-mean-token-sum-norm

0.000005

-1

0

0

0.5

80

constant

0.01

1

16384

32

false

fsdp

1

true

false

true

true

true

Qwen/Qwen3-4B

false

false

Finished

-

baiqingl

3mo ago

1s

-

false

unsloth/Qwen3-4B

true

false

false

true

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

-

1-4

of 4