RLHF w/ different base models

Created on September 11|Last edited on September 12
Comment
﻿
﻿
​
diff only
exp_name: train_policy_accelerate
task.policy.initial_model: 124M
train_policy_accelerate__1__1694095708
meta
runtime
runtime
1h 48m
3mo 10d 16h 8m 22s
2m 20s
config
ppo(8 collapsed)
rewards(3 collapsed)
run
log_interval
log_interval
-
10
-
save_dir
save_dir
-
["/tmp/save/train_policy/testdesc-2309211533","/tmp/save/train_policy/testdesc-2309212027","/tmp/save/train_policy/testdesc-2309220121","/tmp/save/train_policy/testdesc-2309220614","/tmp/save/train_policy/testdesc-2309221107","/tmp/save/train_policy/testdesc-2309221601","/tmp/save/train_policy/testdesc-2309222056","/tmp/save/train_policy/testdesc-2309230149","/tmp/save/train_policy/testdesc-2309230642","/tmp/save/train_policy/testdesc-2309231136"]
-
save_interval
save_interval
-
300
-
seed
seed
-
5.5
-
task
policy
initial_model
initial_model
-
124M
-
temperature
temperature
-
0.7
-
temperature
temperature
0.7
-
0.7
base_model
base_model
gpt2
-
cerebras/Cerebras-GPT-111M
cuda
cuda
true
-
true
deepspeed
deepspeed
-
-
false
exp_name
exp_name
train_policy_accelerate
-
train_policy_accelerate
print_sample_output_freq
print_sample_output_freq
0
-
0
save_path
save_path
["models/train_both_accelerate__10__1693354724/policy.pt","models/train_both_accelerate__1__1693354719/policy.pt","models/train_both_accelerate__2__1693354723/policy.pt","models/train_both_accelerate__3__1693354722/policy.pt","models/train_both_accelerate__4__1693354720/policy.pt","models/train_both_accelerate__5__1693354722/policy.pt","models/train_both_accelerate__6__1693354723/policy.pt","models/train_both_accelerate__7__1693354719/policy.pt","models/train_both_accelerate__8__1693354721/policy.pt","models/train_both_accelerate__9__1693354723/policy.pt"]
-
models/train_both_accelerate__1__1694095504/policy.pt
seed
seed
5.5
-
1
task_id
task_id
-
sentiment
-
track
track
true
-
true
use_tensorflow_adam
use_tensorflow_adam
true
-
true
wandb_project_name
wandb_project_name
lm_human_preference_details
-
cleanrl
summary
_wandb
runtime
runtime
6185
13193.25
134
elapsed
steps
serial
serial
-
46896
-
objective/scores, ppo/objective/score
objective/scores, ppo/objective/score
Select runs that logged objective/scores 
to visualize data in this line chart.
objective/kl, ppo/objective/kl
objective/kl, ppo/objective/kl
Select runs that logged objective/kl 
to visualize data in this line chart.
Ours + gpt210
openai/lm-human-preferences40
Ours + CerebrasGPT1
Run set 40
﻿
﻿
Add a comment