upup-ashton-wang-usc

Upup-ashton-wang's group workspace

Group: Tina-LIMR-16-LoRA-rank

1-1

of 1

Tags

Notes

Author

upup-ashton-wang

State

Crashed

Start time

April 5th, 2025 6:02:35 PM

Runtime

8h 28m

Tracked hours

8h 26m 50s

Run path

upup-ashton-wang-usc/Tina/o2urtmt7

Linux-5.15.0-92-generic-x86_64-with-glibc2.35

Python version

CPython 3.10.16

Command

/home/omer/shangshang/workspace/reasoning/reasoning-sae/./resee/post_train_hf/grpo.py --config ./recipes/DeepSeek-R1-Distill-Qwen-1.5B/grpo/model_curated_lima_medium_rank_ablation.yaml

System Hardware

CPU count	32
Logical CPU count	64
GPU count	8
GPU type	NVIDIA RTX 6000 Ada Generation

W&B CLI Version

0.19.8

Group

Tina-LIMR-16-LoRA-rank

Config parameters are your model's inputs. Learn more

▶
Config parameters:{} 225 keys
- _attn_implementation_autoset:
  true
- _name_or_path:
  "/home/omer/shangshang/project/reasoning/reasoning-sae/ckpts/models/DeepSeek-R1-Distill-Qwen-1.5B/base"
- ▶
  accelerator_config:{} 6 keys
- adafactor:
  false
- adam_beta1:
  0.9
- adam_beta2:
  0.999
- adam_epsilon:
  0.00000001
- add_cross_attention:
  false
- ▶
  architectures:[] 1 item
  - 0:
    "Qwen2ForCausalLM"
- attention_dropout:
  0
- auto_find_batch_size:
  false
- average_tokens_across_devices:
  false
- bad_words_ids:
  null
- batch_eval_metrics:
  false
- begin_suppress_tokens:
  null
- beta:
  0.04
- bf16:
  true
- bf16_full_eval:
  false
- bos_token_id:
  151,643
- chunk_size_feed_forward:
  0
- cross_attention_hidden_size:
  null
- data_seed:
  null
- dataloader_drop_last:
  false
- dataloader_num_workers:
  0
- dataloader_persistent_workers:
  false
- dataloader_pin_memory:
  true
- dataloader_prefetch_factor:
  null
- ddp_backend:
  null
- ddp_broadcast_buffers:
  null
- ddp_bucket_cap_mb:
  null
- ddp_find_unused_parameters:
  null
- ddp_timeout:
  1,800
- debug:[] 0 items
- decoder_start_token_id:
  null
- deepspeed:
  null
- disable_tqdm:
  false
- dispatch_batches:
  null
- diversity_penalty:
  0
- do_eval:
  false
- do_predict:
  false
- do_sample:
  false
- do_train:
  false
- ds3_gather_for_generation:
  true
- early_stopping:
  false
- encoder_no_repeat_ngram_size:
  0
- eos_token_id:
  151,643
- vocab_size:
  151,936
- warmup_ratio:
  0.1
- warmup_steps:
  0
- weight_decay:
  0

Summary metrics are your model's outputs. Learn more

▶
Summary metrics:{} 12 keys
- completions:
  "table-file"
- train/completion_length:
  1,685.34375
- train/epoch:
  1.725179856115108
- train/global_step:
  299
- train/grad_norm:
  0.04161066189408302
- train/kl:
  0.00005090236663818359
- train/learning_rate:
  0.00000017644580628792
- train/loss:
  0
- train/reward:
  1.84375
- train/reward_std:
  0.6540063619613647
- train/rewards/accuracy_reward:
  0.46875
- train/rewards/format_reward:
  0.90625

This run produced these artifacts as outputs. Total: 6. Learn more

run_table

run-o2urtmt7-completions:v0

run_table

run-o2urtmt7-completions:v1

run_table

run-o2urtmt7-completions:v2

run_table

run-o2urtmt7-completions:v3

run_table

run-o2urtmt7-completions:v4

wandb-history

run-o2urtmt7-history:v0