qwen3-vla Table – Weights & Biases

Skip to main content

Andreaskoepf's workspace

Runs

2

train/epoch

train/learning_rate

train/loss

train/step

grad_norm/action_head_total

grad_norm/action_token_embeddings

grad_norm/decoder_block_first

grad_norm/decoder_block_last

grad_norm/decoder_in_layer_norm

grad_norm/decoder_out_proj

grad_norm/global

grad_norm/proprio_projector

grad_norm/task_embeddings

val/loss

val/num_batches

Running

andreaskoepf

2d ago

2d 56m 45s

-

8

32

-

HuggingFaceVLA/libero

cuda:1

true

true

qwen3_vla_adapter_simple

1

0.0002

1

3

150000

Qwen/Qwen3-VL-2B-Instruct

100

1

/mnt/data0/checkpoints

false

5000

42

0.95

1000

10

qwen3-vla

0.01

256

250

128

false

12

0.000044332

0.16171

103220

1.39676

0.020386

0.0059385

0.21856

0.00080558

1.32163

2.68823

0.0012759

2.29688

0.15802

256

Running

andreaskoepf

2d ago

2d 5h 58m

-

8

32

-

HuggingFaceVLA/libero

cuda:0

true

true

qwen3_vla_adapter

1

0.0002

1

3

150000

Qwen/Qwen3-VL-2B-Instruct

100

1

/data2/checkpoints

false

5000

42

0.95

1000

10

qwen3-vla

0.01

256

250

128

false

8

0.00011061

0.14773

69980

-

-

-

-

-

-

-

-

-

0.15424

256

1-2

of 2