reward model training

Created on June 16|Last edited on July 7

Comment

﻿
﻿
﻿
loss, train_reward/minibatch/loss
loss, train_reward/minibatch/loss
020406080100120140Step11.21.41.61.8
loss, train_reward/minibatch/loss
loss, train_reward/minibatch/loss
100150200250300350400Time (seconds)11.21.41.61.8
 
my attempts4
openai original codebase40
 
before refactor10
﻿
﻿
﻿
my attempts1
openai original codebase41
﻿
﻿

Add a comment