MuJoCo: CleanRL's PPO vs OpenAI/Baselines' PPO

Created on July 20|Last edited on July 20
Comment
﻿
﻿
Ant-v4
Ant-v4
2M4M6M8MSteps-1000010002000300040005000Episodic Return
CleanRL PPO + Envpool5
openai/baselines PPO5
Name5 visualized
Ant-v4__ppo_continuous_action_envpool__5__1654679339
Ant-v4__ppo_continuous_action_envpool__5__1654679339
Ant-v4__ppo_continuous_action_envpool__4__1654678759
Ant-v4__ppo_continuous_action_envpool__4__1654678759
Ant-v4__ppo_continuous_action_envpool__3__1654678182
Ant-v4__ppo_continuous_action_envpool__3__1654678182
Ant-v4__ppo_continuous_action_envpool__2__1654677616
Ant-v4__ppo_continuous_action_envpool__2__1654677616
Ant-v4__ppo_continuous_action_envpool__1__1654677044
Ant-v4__ppo_continuous_action_envpool__1__1654677044
State
Notes
User
Tags
Created
Runtime
Sweep
anneal_lr
batch_size
capture_video
clip-vloss
clip_coef
clip_vloss
cuda
ent-coef
ent_coef
env_id
exp_name
gae
gae_lambda
gamma
learning-rate
learning_rate
max-grad-norm
max_grad_norm
minibatch_size
norm_adv
num-minibatches
num-steps
num_envs
num_minibatches
num_steps
seed
torch_deterministic
total_timesteps
track
update-epochs
update_epochs
vf-coef
vf_coef
wandb_project_name
charts/SPS
charts/avg_episodic_return
charts/episodic_length
charts/episodic_return
charts/learning_rate
global_step
losses/approx_kl
losses/clipfrac
losses/entropy
losses/explained_variance
Finished
-
costa-huang
3y ago
10m 8s
-
true
4096
false
-
0.2
false
true
-
0
Ant-v4
ppo_continuous_action_envpool
true
0.95
0.99
-
0.00295
-
3.5
1024
true
-
-
64
4
64
5
true
10000000
true
-
2
-
1.3
envpool-cleanrl
16834
4970.87598
1001
5172.97412
0.0000012085
9998336
6.6258e-7
0
-3.89493
0.74583
Finished
-
costa-huang
3y ago
9m 37s
-
true
4096
false
-
0.2
false
true
-
0
Ant-v4
ppo_continuous_action_envpool
true
0.95
0.99
-
0.00295
-
3.5
1024
true
-
-
64
4
64
4
true
10000000
true
-
2
-
1.3
envpool-cleanrl
17890
4862.50293
1001
5155.4165
0.0000012085
9998336
6.4843e-7
0
-4.24739
0.16503
Finished
-
costa-huang
3y ago
9m 34s
-
true
4096
false
-
0.2
false
true
-
0
Ant-v4
ppo_continuous_action_envpool
true
0.95
0.99
-
0.00295
-
3.5
1024
true
-
-
64
4
64
3
true
10000000
true
-
2
-
1.3
envpool-cleanrl
17907
4692.65625
1001
4984.66992
0.0000012085
9998336
0.0000012245
0
-4.10596
0.63722
Finished
-
costa-huang
3y ago
9m 23s
-
true
4096
false
-
0.2
false
true
-
0
Ant-v4
ppo_continuous_action_envpool
true
0.95
0.99
-
0.00295
-
3.5
1024
true
-
-
64
4
64
2
true
10000000
true
-
2
-
1.3
envpool-cleanrl
18188
4889.06738
1001
5217.66943
0.0000012085
9998336
8.8359e-7
0
-3.82653
0.1655
Finished
-
costa-huang
3y ago
9m 29s
-
true
4096
false
-
0.2
false
true
-
0
Ant-v4
ppo_continuous_action_envpool
true
0.95
0.99
-
0.00295
-
3.5
1024
true
-
-
64
4
64
1
true
10000000
true
-
2
-
1.3
envpool-cleanrl
18019
5089.63379
1001
5185.57324
0.0000012085
9998336
0.0000010594
0
-3.89202
0.19577
1-5
of 5
﻿
﻿
Add a comment