ecl_24

Esteban-cosserat's workspace

Runs

_current_progress_remaining

Finished

esteban-cosserat

2y ago

35m 36s

False

[ True]

[[-0.01132675 -0.01131711 0.0287985 0.00486089]]

None

<stable_baselines3.common.logger.Logger object at 0x7f1dab5cae90>

100

400000

None

Discrete(2)

A2C

cpu

<stable_baselines3.common.vec_env.vec_video_recorder.VecVideoRecorder object at 0x7f1dc3fe91e0>

CartPole-v1

deque([], maxlen=100)

0.99

0.0007

0.5

False

Box([-4.8000002e+00 -3.4028235e+38 -4.1887903e-01 -3.4028235e+38], [4.8000002e+00 3.4028235e+38 4.1887903e-01 3.4028235e+38], (4,), float32)

ActorCriticPolicy( (features_extractor): FlattenExtractor( (flatten): Flatten(start_dim=1, end_dim=-1) ) (pi_features_extractor): FlattenExtractor( (flatten): Flatten(start_dim=1, end_dim=-1) ) (vf_features_extractor): FlattenExtractor( (flatten): Flatten(start_dim=1, end_dim=-1) ) (mlp_extractor): MlpExtractor( (policy_net): Sequential( (0): Linear(in_features=4, out_features=64, bias=True) (1): Tanh() (2): Linear(in_features=64, out_features=64, bias=True) (3): Tanh() ) (value_net): Sequential( (0): Linear(in_features=4, out_features=64, bias=True) (1): Tanh() (2): Linear(in_features=64, out_features=64, bias=True) (3): Tanh() ) ) (action_net): Linear(in_features=64, out_features=2, bias=True) (value_net): Linear(in_features=64, out_features=1, bias=True) )

{'optimizer_class': <class 'torch.optim.rmsprop.RMSprop'>, 'optimizer_kwargs': {'alpha': 0.99, 'eps': 1e-05, 'weight_decay': 0}}

MlpPolicy

<stable_baselines3.common.buffers.RolloutBuffer object at 0x7f1dc3fceda0>

{}

-1

None

1707928875364327400

wandb_data/runs/bw565nvu

400000

False

1-1

of 1