MuJoCo: CleanRL PPO vs OpenAI/Baselines PPO

Created on July 20|Last edited on July 20
Comment
﻿
﻿
Ant-v4
Ant-v4
200k400k600k800kSteps-10000100020003000Episodic Return
CleanRL PPO + Envpool5
openai/baselines PPO5
Name5 visualized
exp_name: ppo_continuous_action_envpool
exp_name: ppo_continuous_action_envpool
5
State
Notes
User
Tags
Created
Runtime
Sweep
anneal_lr
batch_size
capture_video
clip-vloss
clip_coef
clip_vloss
cuda
ent-coef
ent_coef
env_id
exp_name
gae
gae_lambda
gamma
learning-rate
learning_rate
max-grad-norm
max_grad_norm
minibatch_size
norm_adv
num-minibatches
num-steps
num_envs
num_minibatches
num_steps
seed
torch_deterministic
total_timesteps
track
update-epochs
update_epochs
vf-coef
vf_coef
wandb_project_name
charts/SPS
charts/avg_episodic_return
charts/episodic_length
charts/episodic_return
charts/learning_rate
global_step
losses/approx_kl
losses/clipfrac
losses/entropy
losses/explained_variance
Finished
-
costa-huang
3y ago
48m 23s
-
true
4096
false
-
0.2
false
true
-
0
Ant-v4
ppo_continuous_action_envpool
true
0.95
0.99
-
0.00295
-
3.5
1024
true
-
-
64
4
64
3
true
10000000
true
-
2
-
1.3
envpool-cleanrl
17767.6
4900.94727
1001
5143.26064
0.0000012085
9998336
8.9569e-7
0
-3.99337
0.38187
1-1
of 1
﻿
﻿
Add a comment