Temperature and LR for LogSoftMax Reward

This report considers various values of temperature and learning rate for LogSoftMax Reward.

Created on March 24|Last edited on March 24

Comment

﻿
The reward looks as follows.
ri=log⁡exp(ϕ1(si)Tϕ2(si+1)τ)∑s∈Negativesexp(ϕ1(si)Tϕ2(s)τ)r_i = \log \frac{exp(\frac{\phi_1(s_i)^T \phi_2(s_{i+1})}{\tau})}{\sum_{s \in Negatives} exp(\frac{\phi_1(s_i)^T \phi_2(s)}{\tau})} ri​=log∑s∈Negatives​exp(τϕ1​(si​)Tϕ2​(s)​)exp(τϕ1​(si​)Tϕ2​(si+1​)​)​﻿
Let's first consider a fixed subset of expert's trajectories as negatives.
Negatives from expert trajectories ﻿
AverageEnvEpRet
AverageEnvEpRet
0100200300400Step-200-180-160-140-120-100
group: MountainCar_LogSoftMax_ExpertER_1000_neg_temp_1e-1_pi_lr_1e-3
group: MountainCar_LogSoftMax_ExpertER_10000_neg_temp_1e-2
group: MountainCar_LogSoftMax_ExpertER_10000_neg_temp_1e-1
group: MountainCar_LogSoftMax_ExpertER_1000_neg_temp_1e-1
group: MountainCar_LogSoftMax_ExpertER_100_neg_temp_1e-1
group: MountainCar_LogSoftMax_ExpertER_100_neg_temp_1e-2
group: MountainCar_LogSoftMax_ExpertER_10_neg
Run set54
﻿
10 Negatives from Replay Buffer with Temperature﻿
Run set35
﻿
100 Negatives from Replay Buffer with Temperature﻿
Run set20
﻿
100 Negatives from Replay Buffer with Different Policy Learning Rates﻿
Run set40
﻿
100 Negatives from Replay Buffer with Temperature and Different Policy Learning Rates ﻿
Run set71
﻿
Best Runs﻿
Run set51
﻿
﻿

Add a comment