Regression Report: train_reward_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=train_reward/minibatch/error', '124M'], ['?we=openrlbenchmark&wpn=lm_human_preference_details&ceik=label_dataset&cen=exp_name&metrics=train/loss', 'train_reward_accelerate?tag=v0.1.0-49-g98820bb&tag=tf_adam&tag=gpt2&cl=tf_adam,gpt2', 'train_reward_accelerate?tag=v0.1.0-49-g98820bb&tag=pt_adam&tag=gpt2&cl=pt_adam,gpt2']]

Costa

Created on August 10|Last edited on August 10

Comment

﻿
﻿
train_reward/minibatch/error sentiment
train_reward/minibatch/error sentiment
020406080100120140Steps1.11.21.31.41.51.6Episodic Return
openrlbenchmark/lm-human-preferences/124M ({})40
tf_adam,gpt29
pt_adam,gpt29
﻿
﻿
﻿
openrlbenchmark/lm-human-preferences/124M ({})41
tf_adam,gpt210
pt_adam,gpt210
﻿
﻿

Add a comment