costa-huang

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metrics=charts/episodic_return&metrics=charts/episodic_length&metrics=charts/SPS&metrics=losses/actor_loss&metrics=losses/qf1_values&metrics=losses/qf1_loss', 'td3_continuous_action?tag=rlops-pilot', 'td3_continuous_action?tag=pr-377']]

costa-huang

2023-10-11

2 years ago

Reward Ablation

costa-huang

2023-10-06

2 years ago

next: sample temperature tldr

costa-huang

2023-09-27

2 years ago

sample temperature tldr

costa-huang

2023-09-26

2 years ago

summarize

costa-huang

2023-09-23

2 years ago

Regression Report: sentiment_tuning_gpt2xl_grad_accu

[['?we=huggingface&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.reward_model&cen=trl_ppo_trainer_config.value.exp_name&metrics=env/reward_mean&metrics=objective/kl', 'sentiment_tuning?tag=v0.4.7-55-g110e672&cl=sentiment lvwerra/gpt2-imdb (PR-662)', 'sentiment_tuning_gpt2?tag=v0.4.7-55-g110e672&cl=sentiment gpt2 (PR-662)', 'sentiment_tuning_falcon_rw_1b?tag=v0.4.7-55-g110e672&cl=sentiment tiiuae/falcon-rw-1b (PR-662)', 'sentiment_tuning_gpt2xl_grad_accu?tag=v0.4.7-55-g110e672&cl=sentiment gpt2xl (PR-662)']]

costa-huang

2023-09-22

2 years ago

different models

costa-huang

2023-09-07

2 years ago

Regression Report: train_policy_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&xaxis=_step&ceik=task_id&cen=task.value.policy.initial_model&metrics=ppo/objective/score&metrics=ppo/objective/kl&metrics=ppo/objective/entropy&metrics=ppo/objective/score_total&metrics=ppo/objective/kl_coef&metrics=ppo/ppo/loss/total&metrics=ppo/ppo/loss/value&metrics=ppo/ppo/loss/policy&metrics=ppo/ppo/policy/clipfrac&metrics=ppo/ppo/policy/entropy&metrics=ppo/ppo/returns/mean&metrics=ppo/ppo/policy/approxkl&metrics=ppo/ppo/val/clipfrac&metrics=ppo/ppo/val/error&metrics=ppo/ppo/val/mean&metrics=ppo/ppo/returns/var&metrics=ppo/ppo/val/vpred', '124M'], ['?we=openrlbenchmark&wpn=lm_human_preference_details&xaxis=_step&ceik=rewards.value.label_dataset&cen=exp_name&metrics=objective/scores&metrics=objective/kl&metrics=objective/entropy&metrics=objective/score_total&metrics=objective/kl_coef&metrics=ppo/loss/total&metrics=ppo/loss/value&metrics=ppo/loss/policy_avg&metrics=ppo/policy/clipfrac_avg&metrics=ppo/policy/entropy_avg&metrics=ppo/returns/mean&metrics=ppo/policy/approxkl_avg&metrics=ppo/val/clipfrac_avg&metrics=ppo/val/error&metrics=ppo/val/mean&metrics=ppo/returns/var&metrics=ppo/val/vpred', 'train_policy_accelerate?tag=v0.1.0-58-g4f42012&tag=tf_adam&tag=gpt2&cl=tf_adam,gpt2']]

costa-huang

2023-08-10

2 years ago

RLHF w/ different base models

costa-huang

2023-09-11

2 years ago

objective/scores (23/09/11 16:51:10)

costa-huang

2023-09-11

2 years ago

TriviaQA Final Experiments

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=longer_tool_response_newprompt&tag=prod&tag=triviaqa&tag=v0.4.7-74-ga993d12&cl=TriviaQA']]

costa-huang

2023-08-29

2 years ago

Regression Report: train_reward_jax

costa-huang

2023-08-27

2 years ago

Regression Report: train_reward_jax

costa-huang

2023-08-27

2 years ago

Regression Report: train_reward_accelerate

costa-huang

2023-08-27

2 years ago

Regression Report: train_reward_accelerate

costa-huang

2023-08-27

2 years ago

Regression Report: train_reward_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&xaxis=_step&ceik=task_id&cen=task.value.policy.initial_model&metrics=train_reward/minibatch/error', '124M'], ['?we=openrlbenchmark&wpn=lm_human_preference_details&xaxis=_step&ceik=rewards.value.label_dataset&cen=exp_name&metrics=objective/scores&metrics=objective/kl&metrics=objective/entropy&metrics=objective/score_total&metrics=objective/kl_coef&metrics=ppo/loss/total&metrics=ppo/loss/value&metrics=ppo/loss/policy_avg&metrics=ppo/policy/clipfrac_avg&metrics=ppo/policy/entropy_avg&metrics=ppo/returns/mean&metrics=ppo/policy/approxkl_avg&metrics=ppo/val/clipfrac_avg&metrics=ppo/val/error&metrics=ppo/val/mean&metrics=ppo/returns/var&metrics=ppo/val/vpred', 'train_policy_accelerate?tag=v0.1.0-68-g2f3aa38&tag=tf_adam&tag=gpt2&cl=tf_adam,gpt2'], ['?we=tliu&wpn=cleanrl&xaxis=_step&ceik=label_dataset&cen=exp_name&metrics=train/loss', 'train_reward_jax', 'train_reward_accelerate']]

costa-huang

2023-08-27

2 years ago

impala v2

costa-huang

2023-08-17

2 years ago

Regression Report: train_reward_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=train_reward/minibatch/error', '124M'], ['?we=openrlbenchmark&wpn=lm_human_preference_details&ceik=label_dataset&cen=exp_name&metrics=train/loss', 'train_reward_accelerate?tag=v0.1.0-58-g4f42012&tag=tf_adam&tag=gpt2&cl=tf_adam,gpt2']]

costa-huang

2023-08-14

2 years ago

Regression Report: train_policy_accelerate

costa-huang

2023-08-12

2 years ago

descriptiveness

costa-huang

2023-07-16

2 years ago

Regression Report: train_reward_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=train_reward/minibatch/error', '124M'], ['?we=openrlbenchmark&wpn=lm_human_preference_details&ceik=label_dataset&cen=exp_name&metrics=train/loss', 'train_reward_accelerate?tag=v0.1.0-49-g98820bb&tag=tf_adam&tag=gpt2-large&cl=tf_adam,gpt2-large', 'train_reward_accelerate?tag=v0.1.0-49-g98820bb&tag=pt_adam&tag=gpt2-large&cl=pt_adam,gpt2-large']]

costa-huang

2023-08-10

2 years ago

Regression Report: train_reward_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=train_reward/minibatch/error', '124M'], ['?we=openrlbenchmark&wpn=lm_human_preference_details&ceik=label_dataset&cen=exp_name&metrics=train/loss', 'train_reward_accelerate?tag=v0.1.0-49-g98820bb&tag=tf_adam&tag=gpt2&cl=tf_adam,gpt2', 'train_reward_accelerate?tag=v0.1.0-49-g98820bb&tag=pt_adam&tag=gpt2&cl=pt_adam,gpt2']]

costa-huang

2023-08-10

2 years ago

Tensorflow style Adam optimizer

costa-huang

2023-07-25

2 years ago

Tensorflow style Adam optimizer old

costa-huang

2023-08-05

2 years ago

Repeat

costa-huang

2023-07-19

2 years ago

Regression Report: train_policy_adamw

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=ppo/objective/score&metrics=ppo/objective/kl&metrics=ppo/objective/entropy&metrics=ppo/objective/score_total&metrics=ppo/objective/kl_coef&metrics=ppo/ppo/loss/total&metrics=ppo/ppo/loss/value&metrics=ppo/ppo/loss/policy&metrics=ppo/ppo/policy/clipfrac&metrics=ppo/ppo/policy/entropy&metrics=ppo/ppo/returns/mean&metrics=ppo/ppo/policy/approxkl&metrics=ppo/ppo/val/clipfrac&metrics=ppo/ppo/val/error&metrics=ppo/ppo/val/mean&metrics=ppo/ppo/returns/var&metrics=ppo/ppo/val/vpred', '124M'], ['?we=costa-huang&wpn=cleanrl&ceik=rewards.value.label_dataset&cen=exp_name&metrics=objective/scores&metrics=objective/kl&metrics=objective/entropy&metrics=objective/score_total&metrics=objective/kl_coef&metrics=ppo/loss/total&metrics=ppo/loss/value&metrics=ppo/loss/policy&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/policy/approxkl&metrics=ppo/val/clipfrac&metrics=ppo/val/error&metrics=ppo/val/mean&metrics=ppo/returns/var&metrics=ppo/val/vpred', 'train_policy_adamw?tag=v0.1.0-26-ge5aae95']]

costa-huang

2023-07-17

2 years ago

Regression Report: train_policy_accelerate

costa-huang

2023-07-16

2 years ago

Regression Report: train_policy_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=ppo/objective/score&metrics=ppo/objective/kl&metrics=ppo/objective/entropy&metrics=ppo/objective/kl_coef&metrics=ppo/ppo/loss/total&metrics=ppo/ppo/loss/value&metrics=ppo/ppo/loss/policy&metrics=ppo/ppo/policy/clipfrac&metrics=ppo/ppo/policy/entropy&metrics=ppo/ppo/returns/mean&metrics=ppo/ppo/policy/approxkl&metrics=ppo/ppo/val/clipfrac&metrics=ppo/ppo/val/error&metrics=ppo/ppo/val/mean&metrics=ppo/ppo/returns/var&metrics=ppo/ppo/val/vpred', '124M'], ['?we=costa-huang&wpn=cleanrl&ceik=rewards.value.label_dataset&cen=exp_name&metrics=objective/scores&metrics=objective/kl&metrics=objective/entropy&metrics=objective/kl_coef&metrics=ppo/loss/total&metrics=ppo/loss/value&metrics=ppo/loss/policy&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/policy/approxkl&metrics=ppo/val/clipfrac&metrics=ppo/val/error&metrics=ppo/val/mean&metrics=ppo/returns/var&metrics=ppo/val/vpred', 'train_policy_accelerate?tag=v0.1.0-20-gd63c6c3']]

costa-huang

2023-07-16

2 years ago

Regression Report: train_policy_accelerate

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=ppo/objective/score&metrics=ppo/objective/kl&metrics=ppo/objective/entropy&metrics=ppo/objective/kl_coef&metrics=ppo/ppo/loss/total&metrics=ppo/ppo/loss/value&metrics=ppo/ppo/loss/policy&metrics=ppo/ppo/policy/clipfrac&metrics=ppo/ppo/policy/entropy&metrics=ppo/ppo/returns/mean&metrics=ppo/ppo/policy/approxkl&metrics=ppo/ppo/val/clipfrac&metrics=ppo/ppo/val/error&metrics=ppo/ppo/val/mean&metrics=ppo/ppo/returns/var&metrics=ppo/ppo/val/vpred', '124M'], ['?we=costa-huang&wpn=cleanrl&ceik=rewards.value.label_dataset&cen=exp_name&metrics=objective/scores&metrics=objective/kl&metrics=objective/entropy&metrics=objective/kl_coef&metrics=ppo/loss/total&metrics=ppo/loss/value&metrics=ppo/loss/policy&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/policy/approxkl&metrics=ppo/val/clipfrac&metrics=ppo/val/error&metrics=ppo/val/mean&metrics=ppo/returns/var&metrics=ppo/val/vpred', 'train_policy_accelerate?tag=v0.1.0-20-gd63c6c3']]

costa-huang

2023-07-16

2 years ago

Train policy

costa-huang

2023-06-23

2 years ago

Regression Report: train_policy_adam5e-4

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=ppo/objective/score&metrics=ppo/objective/kl&metrics=ppo/objective/entropy&metrics=ppo/objective/kl_coef&metrics=ppo/ppo/loss/total&metrics=ppo/ppo/loss/value&metrics=ppo/ppo/loss/policy&metrics=ppo/ppo/policy/clipfrac&metrics=ppo/ppo/policy/entropy&metrics=ppo/ppo/returns/mean&metrics=ppo/ppo/policy/approxkl&metrics=ppo/ppo/val/clipfrac&metrics=ppo/ppo/val/error&metrics=ppo/ppo/val/mean&metrics=ppo/ppo/returns/var&metrics=ppo/ppo/val/vpred', '124M'], ['?we=costa-huang&wpn=cleanrl&ceik=base_model&cen=exp_name&metrics=objective/scores&metrics=objective/kl&metrics=objective/entropy&metrics=objective/kl_coef&metrics=ppo/loss/total&metrics=ppo/loss/value&metrics=ppo/loss/policy&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/policy/approxkl&metrics=ppo/val/clipfrac&metrics=ppo/val/error&metrics=ppo/val/mean&metrics=ppo/returns/var&metrics=ppo/val/vpred', 'train_policy_adam5e-4?tag=v0.1.0-9-gc56a4aa']]

costa-huang

2023-07-12

2 years ago

Untitled Report

costa-huang

2023-07-07

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=gpt2-sentiment&tag=rlops-pilot&cl=sentiment analysis (PR-410)', 'wandb?tag=gpt2-sentiment&tag=pr-457&tag=sgd&cl=sentiment analysis SGD', 'wandb?tag=gpt2-sentiment&tag=pr-457&tag=adam&tag=mideps&cl=sentiment analysis Adam w/ eps=4e-3']]

costa-huang

2023-07-10

2 years ago

Untitled Report

costa-huang

2023-07-04

2 years ago

Regression Report: 124M

costa-huang

2023-07-09

2 years ago

reward model training

costa-huang

2023-06-16

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=gpt2-sentiment&tag=rlops-pilot&cl=sentiment analysis (PR-410)', 'wandb?tag=gpt2-sentiment&tag=pr-423&cl=sentiment analysis (PR-423)', 'wandb?tag=gpt2-sentiment&tag=pr-457&tag=sgd&cl=sentiment analysis SGD']]

costa-huang

2023-07-06

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=gpt2-sentiment&tag=rlops-pilot&cl=sentiment analysis (PR-410)', 'wandb?tag=gpt2-sentiment&tag=pr-423&cl=sentiment analysis (PR-423)', 'wandb?tag=gpt2-sentiment&tag=v0.4.6-18-gbbc7eeb&cl=sentiment analysis SGD']]

costa-huang

2023-07-06

2 years ago

Regression Report: wandb

costa-huang

2023-06-28

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=gpt2-sentiment&tag=pr-423&cl=sentiment analysis (PR-423)', 'wandb?tag=gpt2-sentiment-1-nminibs&cl=sentiment analysis (no minibatches, target kl=6)']]

costa-huang

2023-06-28

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=gpt2-sentiment&tag=rlops-pilot&cl=sentiment analysis (PR-410)', 'wandb?tag=gpt2-sentiment&tag=pr-423&cl=sentiment analysis (PR-423)', 'wandb?tag=gpt2-sentiment-1-nminibs&cl=sentiment analysis (no minibatches, target kl=6)']]

costa-huang

2023-06-28

2 years ago

Regression Report: 124M

costa-huang

2023-06-26

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&xaxis=_step&ceik=trl_ppo_trainer_config.value.tracker_project_name&cen=trl_ppo_trainer_config.value.log_with&metrics=env/reward_mean&metrics=objective/kl', 'wandb?tag=calculator_mask&cl=calculator_mask', 'wandb?tag=calculator_mask_direct_rewrad&cl=calculator_mask_direct_rewrad']]

costa-huang

2023-06-26

2 years ago

Train policy (negative KL divergence)

costa-huang

2023-06-23

2 years ago

Regression Report: 124M

[['?we=openrlbenchmark&wpn=lm-human-preferences&ceik=task_id&cen=task.value.policy.initial_model&metrics=ppo/objective/score&metrics=ppo/objective/kl', '124M']]

costa-huang

2023-06-23

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean', 'wandb?tag=calculator_few_shots_env3&tag=pr-429&cl=calculator_env (various improvement 2)']]

costa-huang

2023-06-22

2 years ago

sentiment analysis

costa-huang

2023-06-21

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean', 'wandb?tag=calculator_few_shots_env_no_training&tag=pr-429&cl=baseline (no training at all)', 'wandb?tag=calculator_few_shots_env&tag=pr-429&cl=calculator_env (various improvement)']]

costa-huang

2023-06-15

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean&metrics=objective/kl&metrics=objective/entropy', 'wandb?tag=calculator_few_shots_env&tag=pr-429&cl=calculator_env (various improvement)']]

costa-huang

2023-06-15

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean&metrics=env/reward_std&metrics=objective/kl_coef&metrics=objective/kl&metrics=objective/entropy&metrics=ppo/std_scores&metrics=ppo/mean_scores&metrics=ppo/learning_rate&metrics=ppo/mean_non_score_reward&metrics=ppo/loss/value&metrics=ppo/loss/total&metrics=ppo/loss/policy&metrics=ppo/policy/advantages_mean&metrics=ppo/policy/approxkl&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/returns/var', 'wandb?tag=calculator_few_shots_env&tag=pr-429&cl=calculator_env (various improvement)']]

costa-huang

2023-06-15

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean&metrics=env/reward_std&metrics=objective/kl_coef&metrics=objective/kl&metrics=objective/entropy&metrics=ppo/std_scores&metrics=ppo/mean_scores&metrics=ppo/learning_rate&metrics=ppo/mean_non_score_reward&metrics=ppo/loss/value&metrics=ppo/loss/total&metrics=ppo/loss/policy&metrics=ppo/policy/advantages_mean&metrics=ppo/policy/approxkl&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/returns/var', 'wandb?tag=gpt2-sentiment&tag=rlops-pilot&cl=sentiment analysis (PR-410)', 'wandb?tag=gpt2-sentiment&tag=pr-423&cl=sentiment analysis (PR-423)']]

costa-huang

2023-06-09

2 years ago

Regression Report: wandb

costa-huang

2023-06-08

2 years ago

Regression Report: wandb

costa-huang

2023-06-07

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean&metrics=env/reward_std&metrics=objective/kl_coef&metrics=objective/kl&metrics=objective/entropy&metrics=ppo/std_scores&metrics=ppo/mean_scores&metrics=ppo/learning_rate&metrics=ppo/mean_non_score_reward&metrics=ppo/loss/value&metrics=ppo/loss/total&metrics=ppo/loss/policy&metrics=ppo/policy/advantages_mean&metrics=ppo/policy/approxkl&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/returns/var', 'wandb?tag=calculator', 'wandb?tag=calculator2&cl=with min_length=1, eos_token_id=-1']]

costa-huang

2023-06-07

2 years ago

Regression Report: wandb

[['?we=costa-huang&wpn=trl&ceik=tracker_project_name&cen=log_with&metrics=env/reward_mean&metrics=env/reward_std&metrics=objective/kl_coef&metrics=objective/kl&metrics=objective/entropy&metrics=ppo/std_scores&metrics=ppo/mean_scores&metrics=ppo/learning_rate&metrics=ppo/mean_non_score_reward&metrics=ppo/loss/value&metrics=ppo/loss/total&metrics=ppo/loss/policy&metrics=ppo/policy/advantages_mean&metrics=ppo/policy/approxkl&metrics=ppo/policy/clipfrac&metrics=ppo/policy/entropy&metrics=ppo/returns/mean&metrics=ppo/returns/var', 'wandb?tag=calculator', 'wandb?tag=calculator2&cl=with min_length=1, eos_token_id=-1']]

costa-huang

2023-06-07

2 years ago

Regression Report: openai/baselines PPO2

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ppo_continuous_action?tag=v1.0.0-27-gde3f410&cl=CleanRL PPO'], ['?we=openrlbenchmark&wpn=baselines&ceik=env&cen=exp_name&metric=charts/episodic_return', 'baselines-ppo2-mlp?cl=openai/baselines PPO2']]

costa-huang

2023-06-05

2 years ago

Regression Report: openrlbenchmark/cleanrl/ddpg_continuous_action_jax ({'tag': ['pr-298']})

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ddpg_continuous_action?tag=pr-371', 'ddpg_continuous_action?tag=pr-299', 'ddpg_continuous_action?tag=rlops-pilot', 'ddpg_continuous_action_jax?tag=pr-371-jax', 'ddpg_continuous_action_jax?tag=pr-298']]

costa-huang

2023-06-02

2 years ago

impala rmsprop

costa-huang

2023-05-19

2 years ago

impala optimizer?

costa-huang

2023-05-17

2 years ago

Regression Report: sac_continuous_action

[['?we=openrlbenchmark&wpn=sb3&ceik=env&cen=algo&metric=rollout/ep_rew_mean', 'a2c', 'ddpg', 'ppo_lstm?cl=PPO w/ LSTM', 'sac', 'td3', 'ppo', 'trpo'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'sac_continuous_action?tag=rlops-pilot&cl=SAC']]

costa-huang

2023-05-05

2 years ago

Regression Report: ddpg_continuous_action_jax

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ddpg_continuous_action?tag=pr-371', 'ddpg_continuous_action_jax?tag=pr-371-jax']]

costa-huang

2023-05-03

2 years ago

Regression Report: dqn_jax

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'dqn?tag=pr-370', 'dqn_jax?tag=pr-370-jax', 'dqn?tag=rlops-pilot', 'dqn_jax?tag=rlops-pilot']]

costa-huang

2023-05-03

2 years ago

Regression Report: dqn_atari_jax

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'dqn_atari_jax?tag=rlops-pilot', 'dqn_atari_jax?tag=pr-370-atari-jax']]

costa-huang

2023-05-03

2 years ago

MAX learner load: direct device transfer IMPALA

costa-huang

2023-04-22

3 years ago

direct device transfer IMPALA

costa-huang

2023-04-20

3 years ago

resent XL

costa-huang

2023-04-20

3 years ago

flexible specification of model sizes

costa-huang

2023-04-21

3 years ago

Regression Report: moolib_impala_envpool_machado

[['?we=openrlbenchmark&wpn=moolib-atari&ceik=env_id&cen=exp_name&metric=global/mean_episode_return', 'moolib_impala_envpool_machado?cl=Moolib (Resnet CNN, 1nd set 3 seeds) 1 A100, 10 CPU'], ['?we=costa-huang&wpn=moolib-atari-2&ceik=env_id&cen=exp_name&metric=global/mean_episode_return', 'moolib_impala_envpool_machado?cl=Moolib (Resnet CNN, 2nd set 3 seeds) 1 A100, 10 CPU']]

costa-huang

2023-04-18

3 years ago

moolib CPU

costa-huang

2023-04-17

3 years ago

Cleanba impala threads ASAP max GPU

costa-huang

2023-04-10

3 years ago

Cleanba impala threads ASAP

costa-huang

2023-04-09

3 years ago

actor threads profile

costa-huang

2023-04-10

3 years ago

policy lag

costa-huang

2023-04-14

3 years ago

PPO interleave

costa-huang

2023-04-11

3 years ago

PPO tfds

costa-huang

2023-04-11

3 years ago

Cleanba impala threads ASAP grad norm

costa-huang

2023-04-09

3 years ago

PPO jax in-place updates

costa-huang

2023-04-08

3 years ago

Cleanba impala threads

costa-huang

2023-03-24

3 years ago

Regression Report: ppo_atari_envpool_symlog

[['?we=ryan-colab&wpn=PPO-v3&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ppo_atari_envpool_unclipped?tag=v0.0.1-61-g381cb14&cl=reward_clip=False', 'ppo_atari_envpool?tag=v0.0.1-61-g381cb14&cl=basline (reward_clip=True)', 'ppo_atari_envpool_symlog?tag=v0.0.1-61-g381cb14&cl=symlog_on_reward']]

costa-huang

2023-03-29

3 years ago

PPO last action reward

costa-huang

2023-04-03

3 years ago

TPU Sebulba 200k FPS experiment

costa-huang

2023-03-26

3 years ago

cleanba impala Asteroids-v5

costa-huang

2023-03-26

3 years ago

Regression Report: ddpg_continuous_action

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ddpg_continuous_action?tag=pr-299', 'ddpg_continuous_action?tag=rlops-pilot']]

costa-huang

2023-03-26

3 years ago

Regression Report: ddpg_continuous_action

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ddpg_continuous_action?tag=pr-299', 'ddpg_continuous_action?tag=rlops-pilot']]

costa-huang

2023-03-26

3 years ago

cleanba impala scalability

costa-huang

2023-03-24

3 years ago

cleanba impala

costa-huang

2023-03-22

3 years ago

cleanba speed

costa-huang

2023-03-23

3 years ago

Regression Report: moolib_impala_alepy_8gpu

[['?we=openrlbenchmark&wpn=cleanba&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'cleanba_ppo_envpool_impala_atari_wrapper?tag=v0.0.1-16-g32dbf31&cl=baseline (8 A100)'], ['?we=openrlbenchmark&wpn=moolib-atari&ceik=env_id&cen=exp_name&metric=global/mean_episode_return', 'moolib_impala_alepy_4gpu', 'moolib_impala_alepy_8gpu']]

costa-huang

2023-03-18

3 years ago

cleanba distributed

costa-huang

2023-02-15

3 years ago

EnvPool's procgen vs procgen

costa-huang

2023-01-03

3 years ago

data transfer optimization

costa-huang

2023-02-27

3 years ago

Interleave

costa-huang

2023-02-25

3 years ago

Do we really need actor and learner devices

costa-huang

2023-02-25

3 years ago

large resnet

costa-huang

2023-02-25

3 years ago

Interleave ablation study

costa-huang

2023-02-25

3 years ago

Ablation study

costa-huang

2023-02-25

3 years ago

Regression Report: cleanba_ppo_envpool_procgen

[['?we=openrlbenchmark&wpn=cleanba&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'cleanba_ppo_envpool_procgen?tag=v0.0.1-1-gf0c2e8c']]

costa-huang

2023-02-23

3 years ago

Untitled Report

costa-huang

2023-02-23

3 years ago

nature cnn

costa-huang

2023-02-22

3 years ago

Regression Report: ppo_dmc_envpool

[['?we=dream-team-v3&wpn=PPO-v3&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ppo_dmc_envpool?tag=v0.0.1-14-gb2aee2d']]

costa-huang

2023-02-22

3 years ago

Regression Report: ppo_atari_envpool

[['?we=openrlbenchmark&wpn=baselines&ceik=env&cen=exp_name&metric=charts/episodic_return', 'baselines-ppo2-cnn'], ['?we=dream-team-v3&wpn=PPO-v3&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ppo_atari_envpool?tag=v0.0.1-5-g61d4028']]

costa-huang

2023-02-22

3 years ago

Regression Report: ppo_atari_envpool

costa-huang

2023-02-22

3 years ago

Regression Report: ppo_atari_envpool

costa-huang

2023-02-22

3 years ago

impala large

costa-huang

2023-02-20

3 years ago

cleanba distributed (actor SPS improvement)

costa-huang

2023-02-16

3 years ago

Untitled Report

costa-huang

2023-02-12

3 years ago

sebulba (impala wrappers)

costa-huang

2023-02-06

3 years ago

Untitled Report

costa-huang

2023-02-10

3 years ago

sebulba

costa-huang

2023-01-26

3 years ago

4 vs 3 learner devices

costa-huang

2023-02-05

3 years ago

sebulba

costa-huang

2023-02-04

3 years ago

Regression Report: ppo_continuous_action_envpool_xla_jax_scan

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'ppo_continuous_action_8M?tag=v1.0.0-13-gcbd83f6'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_continuous_action_envpool_xla_jax_scan?tag=v1.0.0-jax-ca-be3113b']]

costa-huang

2023-02-04

3 years ago

Reincarnate RL

costa-huang

2022-12-23

3 years ago

sebulba profile

costa-huang

2023-01-29

3 years ago

sebula actor threads

costa-huang

2023-01-29

3 years ago

torchbeast

costa-huang

2023-01-23

3 years ago

sebulba various setting

costa-huang

2023-01-27

3 years ago

sebulba (common setting)

costa-huang

2023-01-27

3 years ago

sebulba througput

costa-huang

2023-01-27

3 years ago

Regression Report: dqn_atari_jax

[['?we=openrlbenchmark&wpn=sb3&ceik=env&cen=algo&metric=rollout/ep_rew_mean', 'dqn', 'ppo_lstm'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'c51_atari_jax', 'dqn_atari_jax']]

costa-huang

2023-01-17

3 years ago

Untitled Report

costa-huang

2023-01-17

3 years ago

PPO MuJoCo EnvPool Scan

costa-huang

2023-01-13

3 years ago

Pytorch JIT vs JAX JIT

costa-huang

2023-01-05

3 years ago

Regression Report: ppo_atari_envpool_xla_jax_scan

[['?we=openrlbenchmark&wpn=sb3&ceik=env&cen=algo&metric=rollout/ep_rew_mean', 'ppo', 'ppo_lstm'], ['?we=tianshou&wpn=atari.benchmark&ceik=task&cen=algo_name&metric=test/reward', 'iqn', 'ppo', 'rainbow', 'fqf', 'c51', 'dqn', 'qrdqn'], ['?we=openrlbenchmark&wpn=baselines&ceik=env&cen=exp_name&metric=charts/episodic_return', 'baselines-ppo2-cnn'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_scan?tag=pr-328']]

costa-huang

2023-01-02

3 years ago

dm haiku vs flax

costa-huang

2022-12-24

3 years ago

Regression Report: ppo_atari_envpool_xla_jax_truncation

[['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_scan?tag=pr-328&user=51616', 'ppo_atari_envpool_xla_jax?tag=pr-328&user=51616'], ['?we=openrlbenchmark&wpn=baselines&ceik=env&cen=exp_name&metric=charts/episodic_return', 'baselines-ppo2-cnn'], ['?we=openrlbenchmark&wpn=envpool-atari&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_truncation?user=costa-huang']]

costa-huang

2022-12-21

3 years ago

Regression Report: ppo_atari_envpool_xla_jax_scan

[['?we=openrlbenchmark&wpn=baselines&ceik=env&cen=exp_name&metric=charts/episodic_return', 'baselines-ppo2-cnn'], ['?we=openrlbenchmark&wpn=envpool-atari&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_truncation'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_scan?tag=pr-328']]

costa-huang

2022-12-20

3 years ago

Regression Report: ppo_atari_envpool_xla_jax_scan

[['?we=openrlbenchmark&wpn=envpool-atari&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_truncation'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax_scan?tag=pr-328']]

costa-huang

2022-12-20

3 years ago

Regression Report: sac_continuous_action

[['?we=openrlbenchmark&wpn=sb3&ceik=env&cen=algo&metric=rollout/ep_rew_mean', 'a2c', 'ddpg', 'ppo_lstm', 'sac', 'td3', 'ppo', 'trpo'], ['?we=openrlbenchmark&wpn=cleanrl&ceik=env_id&cen=exp_name&metric=charts/episodic_return', 'sac_continuous_action?tag=rlops-pilot']]

costa-huang

2022-12-16

3 years ago

dm_control: CleanRL's PPO

['ppo_continuous_action?tag=v1.0.0-13-gcbd83f6']

costa-huang

2022-12-11

3 years ago

Regression Report: ppo_continuous_action

['ppo_continuous_action?tag=v1.0.0-13-gcbd83f6']

costa-huang

2022-12-11

3 years ago

MuJoCo v4: CleanRL's PPO

['ppo_continuous_action?tag=v1.0.0-12-g99f7789']

costa-huang

2022-12-10

3 years ago

Regression Report: ppo_continuous_action

['ppo_continuous_action?tag=v1.0.0-13-gcbd83f6']

costa-huang

2022-12-10

3 years ago

Regression Report: ppo_continuous_action

['ddpg_continuous_action_jax?user=joaogui1&tag=rlops-pilot', 'ddpg_continuous_action_jax?user=joaogui1&tag=pr-298', 'ddpg_continuous_action_jax?user=costa-huang&tag=rlops-pilot', 'ddpg_continuous_action_jax?user=costa-huang&tag=pr-298', 'ddpg_continuous_action?user=costa-huang&tag=pr-299', 'ppo_continuous_action?user=costa-huang&tag=rlops-pilot']

costa-huang

2022-12-08

3 years ago

Regression Report: ppo_atari_envpool_xla_vclip_jax

['ppo_atari_envpool_xla_jax?metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_vclip_jax?metric=charts/avg_episodic_return']

costa-huang

2022-12-08

3 years ago

Regression Report: sac_jax

['sac_continuous_action_jax?tag=pr-300', 'sac_jax?tag=rlops-pilot']

costa-huang

2022-11-22

3 years ago

Regression Report: sac_atari

['sac_atari?tag=pr-270&tag=v1.0.0b1-43-g6f7251f']

costa-huang

2022-11-13

3 years ago

Regression Report: sac_atari

['sac_atari?tag=pr-270&tag=latest']

costa-huang

2022-11-13

3 years ago

Regression Report: sac_atari

['sac_atari?tag=pr-270&tag=latest']

costa-huang

2022-11-13

3 years ago

Regression Report: sac_atari

['sac_atari']

costa-huang

2022-11-13

3 years ago

Regression Report: ppo_atari_envpool_xla_vclip_jax

['baselines-ppo2-cnn?wpn=baselines&we=openrlbenchmark&ceik=gym_id', 'ppo_atari_envpool_xla_jax_truncation?metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_jax?metric=charts/avg_episodic_return', 'ppo_atari_envpool_xla_vclip_jax?metric=charts/avg_episodic_return']

costa-huang

2022-11-12

3 years ago

Regression Report: ppo_atari_envpool_xla_vclip_jax

costa-huang

2022-11-12

3 years ago

Regression Report: ppo_atari_envpool_xla_vclip_jax

costa-huang

2022-11-12

3 years ago

Regression Report: ppo_continuous_action

costa-huang

2022-11-10

3 years ago

Regression Report: ppo_continuous_action

costa-huang

2022-11-10

3 years ago

Regression Report: ppo_continuous_action

costa-huang

2022-11-08

3 years ago

Regression Report: ddpg_continuous_action_jax

['ddpg_continuous_action_jax?user=joaogui1&tag=rlops-pilot', 'ddpg_continuous_action_jax?user=joaogui1&tag=pr-298', 'ddpg_continuous_action_jax?user=costa-huang&tag=rlops-pilot']

costa-huang

2022-11-08

3 years ago

Regression Report: ppo_continuous_action

costa-huang

2022-11-08

3 years ago

Regression Report: ddpg_continuous_action

costa-huang

2022-11-08

3 years ago

Regression Report: ddpg_continuous_action_jax

costa-huang

2022-11-08

3 years ago

Regression Report: ddpg_continuous_action

costa-huang

2022-11-08

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Copy of costa-huang's Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-07

3 years ago

Regression report

costa-huang

2022-11-04

3 years ago

Regression Report: ddpg_continuous_action_jax (['pr-298?costa-huang', 'rlops-pilot?costa-huang'])

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action_jax (['pr-298?joaogui1', 'rlops-pilot?joaogui1'])

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-03

3 years ago

Regression report

costa-huang

2022-11-03

3 years ago

Regression report

costa-huang

2022-11-03

3 years ago

Regression report

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action_jax (['pr-298;tpu', 'rlops-pilot;tpu'])

costa-huang

2022-11-03

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'rlops-pilot'])

costa-huang

2022-11-01

3 years ago

Regression Report: ddpg_continuous_action (['pr-299', 'latest'])

costa-huang

2022-11-01

3 years ago

Compare ['sac_jax', 'sac_continuous_action', 'sac_continuous_action_deter_eval']

costa-huang

2022-11-01

3 years ago

Compare ['sac_jax', 'sac_continuous_action', 'sac_continuous_action_deter_eval']

costa-huang

2022-11-01

3 years ago

Compare ['sac_jax', 'sac_continuous_action', 'sac_continuous_action_deter_eval']

costa-huang

2022-11-01

3 years ago

Compare ['sac_jax', 'sac_continuous_action', 'sac_continuous_action_deter_eval']

costa-huang

2022-11-01

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Regression Report: ddpg_continuous_action_jax (['v1.0.0b2-9-g4605546', 'latest'])

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-10-31

3 years ago

How much time does env stepping take?

costa-huang

2022-08-08

3 years ago

CleanRL PPO + JAX + EnvPool's XLA (w/ and w/o value loss clipping) vs openai/baselins' PPO (part 2)

costa-huang

2022-10-06

3 years ago

CleanRL PPO + JAX + EnvPool's XLA (w/ and w/o value loss clipping) vs openai/baselins' PPO (part 1)

costa-huang

2022-10-06

3 years ago

CleanRL PPO + JAX + EnvPool's XLA (w/ and w/o value loss clipping) vs openai/baselins' PPO (part 1)

costa-huang

2022-10-06

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-10-04

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-10-04

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 2)

costa-huang

2022-09-19

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-19

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 2)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 2)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 2)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-12

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 2)

costa-huang

2022-09-10

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-10

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-09-10

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-09-10

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-09-10

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 2)

costa-huang

2022-09-10

3 years ago

Atari: CleanRL PPO + JAX + EnvPool's XLA vs openai/baselins' PPO (part 1)

costa-huang

2022-09-10

3 years ago

Debug Async

costa-huang

2022-07-25

3 years ago

Async vs XLA

costa-huang

2022-09-08

3 years ago

XLA Envpool

costa-huang

2022-07-19

3 years ago

Atlantis-v5 investigation

costa-huang

2022-07-17

3 years ago

Jax DQN speed regression

costa-huang

2022-07-28

3 years ago

Breakout-v5 Faster

costa-huang

2022-07-07

3 years ago

Does stats slow down xla training?

costa-huang

2022-07-25

3 years ago

Untitled Report

costa-huang

2022-07-17

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-07-21

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-07-21

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-07-21

3 years ago

Atari: CleanRL PPO gym vs envpool

costa-huang

2022-07-21

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-21

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo- CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo- CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo- CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo: CleanRL PPO vs OpenAI/Baselines PPO

costa-huang

2022-07-20

3 years ago

MuJoCo: CleanRL's PPO vs OpenAI/Baselines' PPO

costa-huang

2022-07-20

3 years ago

MuJoCo: CleanRL's PPO vs OpenAI/Baselines' PPO

costa-huang

2022-07-20

3 years ago

MuJoCo: CleanRL's PPO vs OpenAI/Baselines' PPO

costa-huang

2022-07-20

3 years ago

MuJoCo: CleanRL's PPO vs OpenAI/Baselines' PPO

costa-huang

2022-07-20

3 years ago

MuJoCo: CleanRL's PPO vs OpenAI/Baselines' PPO

costa-huang

2022-07-20

3 years ago

Atari: CleanRL's DQN - RTX 3060 TI vs RTX 2060

costa-huang

2022-07-18

3 years ago

PPO: JAX vs Torch in Envpool

costa-huang

2022-06-25

3 years ago

Torch DDPG (2060 vs 3060ti)

costa-huang

2022-07-12

3 years ago

Untitled Report

costa-huang

2022-06-30

3 years ago

JAX DQN

costa-huang

2022-06-28

3 years ago

ddpg jax debug

costa-huang

2022-06-23

3 years ago

Evaluate MA atari agent

costa-huang

2022-06-15

3 years ago

Debug MA PPO

costa-huang

2022-06-12

3 years ago

Atari: CleanRL's PPO

A comparison of the performance of CleanRL's PPO on Atari games.

costa-huang

2022-06-10

3 years ago

Atari: CleanRL's PPO

A comparison of the performance of CleanRL's PPO on Atari games.

costa-huang

2022-06-10

3 years ago

Atari: CleanRL's PPO

A comparison of the performance of CleanRL's PPO on Atari games.

costa-huang

2022-06-10

3 years ago

Archived - Atari: CleanRL's PPO

A comparison of the performance of CleanRL's PPO on Atari games.

costa-huang

2022-06-02

3 years ago

MA ALE

costa-huang

2022-03-18

3 years ago

MuJoCo Envpool: PPO zoo

costa-huang

2022-05-28

3 years ago

Untitled Report

costa-huang

2022-03-06

3 years ago

procgen: openai/phasic-policy-gradient vs CleanRL's PPO

costa-huang

2022-05-21

3 years ago

MuJoCo: jaxrl vs CleanRL vs SB3

costa-huang

2022-05-13

3 years ago

Procgen: CleanRL's PPO vs PPG

costa-huang

2022-05-07

3 years ago

#173: Classic Control: CleanRL's DQN

costa-huang

2022-04-28

3 years ago

#173 Atari: CleanRL's DQN

costa-huang

2022-05-02

3 years ago

#173 Classic Control: CleanRL's C51

costa-huang

2022-05-02

3 years ago

#173 MuJoCo: CleanRL's SAC

costa-huang

2022-05-02

3 years ago

#173 Atari: CleanRL's C51

costa-huang

2022-04-29

4 years ago

#173 MuJoCo: CleanRL's TD3

costa-huang

2022-04-28

4 years ago

#173 MuJoCo: CleanRL's DDPG

costa-huang

2022-04-28

4 years ago

Data Parallelism Experiment

costa-huang

2022-04-12

4 years ago

Compare Ant Best performance

costa-huang

2022-04-20

4 years ago

(4/19) MuJoCo v4 vs v2: CleanRL's PPO

costa-huang

2022-04-19

4 years ago

envpool faster throughput

costa-huang

2022-04-18

4 years ago

MuJoCo v4 vs v2: CleanRL's PPO

costa-huang

2022-04-13

4 years ago

Untitled Report

costa-huang

2022-04-14

4 years ago

MountainCar-v0 Regression Investigation

costa-huang

2022-04-08

4 years ago

Copy of costa-huang's MountainCar-v0: SB3’s DQN

costa-huang

2022-04-09

4 years ago

rl-games vs other PPO

costa-huang

2022-03-29

4 years ago

Deepmind Mujoco vs openai/mujoco_py

costa-huang

2022-03-27

4 years ago

MuJoCo v2 vs v4 environments

costa-huang

2022-03-02

4 years ago

MuJoCo: sfujim/TD3 Vs CleanRL

costa-huang

2022-03-23

4 years ago

Untitled Report

costa-huang

2022-03-07

4 years ago

DQN vs Tianshou

costa-huang

2022-03-04

4 years ago

Copy of costa-huang's Envpool

costa-huang

2022-02-09

4 years ago

Procgen Our PPO vs openai/baselines' PPO

costa-huang

2022-02-05

4 years ago

PPO and PPG procgen report

costa-huang

2022-02-05

4 years ago

Breakout-v5

costa-huang

2022-01-11

4 years ago

Regression Report

costa-huang

2022-01-11

4 years ago

Envpool's Breakout-v5 Regression

costa-huang

2022-01-12

4 years ago

Untitled Report

costa-huang

2021-12-15

4 years ago

LSTM Pilot

costa-huang

2021-11-04

4 years ago

Untitled Report

costa-huang

2021-10-01

4 years ago

Procgen StarPilot Reproduction

costa-huang

2021-10-11

4 years ago

pybullet with / without normalization

costa-huang

2021-09-14

4 years ago

ALE-py vs atari-py

costa-huang

2021-09-12

4 years ago

Our PPO vs SB3's PPO

costa-huang

2021-09-11

4 years ago

Reward Normalization?

costa-huang

2021-09-08

4 years ago

PPO Atari Debug

costa-huang

2021-09-03

4 years ago

Untitled Report

costa-huang

2021-07-01

4 years ago

My first front end project

costa-huang

2021-06-28

4 years ago

dqn hyper params

costa-huang

2021-06-26

4 years ago

vdqn

costa-huang

2021-05-15

4 years ago

Tensorboard global_step misalignment

costa-huang

2021-03-23

5 years ago

Smaller Network Transfer Debugging

costa-huang

2021-03-21

5 years ago

Network Bytes

costa-huang

2021-03-20

5 years ago

Final Eval

costa-huang

2021-02-27

5 years ago

Impala-cnn vs atari-net

costa-huang

2021-01-28

5 years ago

pa2c

costa-huang

2019-09-25

6 years ago

cartpolev0.a2cv.ppo

costa-huang

2019-09-13

6 years ago

taxi-v2.a2cv.ppo.a2c

costa-huang

2019-09-13

6 years ago