l2hmc-qcd

MODEL_SIZE: GPT1T_2L, env.MACHINE: Perlmutter, world_size: 8, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 8, global_batch_size: 16, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 1, seq_length: 2048, use_flash_attn: false, env.GAS: 8 GPU 0 Memory Allocated (%)

MODEL_SIZE: GPT1T_2L, env.MACHINE: Perlmutter, world_size: 8, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 8, global_batch_size: 16, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 1, seq_length: 2048, use_flash_attn: false, env.GAS: 8 GPU 1 Memory Allocated (%)

MODEL_SIZE: GPT1T_2L, env.MACHINE: Perlmutter, world_size: 8, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 8, global_batch_size: 16, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 1, seq_length: 2048, use_flash_attn: false, env.GAS: 8 GPU 2 Memory Allocated (%)

MODEL_SIZE: GPT1T_2L, env.MACHINE: Perlmutter, world_size: 8, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 8, global_batch_size: 16, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 1, seq_length: 2048, use_flash_attn: false, env.GAS: 8 GPU 3 Memory Allocated (%)

MODEL_SIZE: GPT1T_4L, env.MACHINE: Perlmutter, world_size: 16, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 16, global_batch_size: 32, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 2, seq_length: 2048, use_flash_attn: false, env.GAS: 16 GPU 0 Memory Allocated (%)

MODEL_SIZE: GPT1T_4L, env.MACHINE: Perlmutter, world_size: 16, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 16, global_batch_size: 32, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 2, seq_length: 2048, use_flash_attn: false, env.GAS: 16 GPU 1 Memory Allocated (%)

MODEL_SIZE: GPT1T_4L, env.MACHINE: Perlmutter, world_size: 16, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 16, global_batch_size: 32, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 2, seq_length: 2048, use_flash_attn: false, env.GAS: 16 GPU 2 Memory Allocated (%)

MODEL_SIZE: GPT1T_4L, env.MACHINE: Perlmutter, world_size: 16, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 16, global_batch_size: 32, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 2, seq_length: 2048, use_flash_attn: false, env.GAS: 16 GPU 3 Memory Allocated (%)

MODEL_SIZE: GPT1T_16L, env.MACHINE: Perlmutter, world_size: 64, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 64, global_batch_size: 128, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 8, seq_length: 2048, use_flash_attn: false, env.GAS: 64 GPU 0 Memory Allocated (%)

MODEL_SIZE: GPT1T_16L, env.MACHINE: Perlmutter, world_size: 64, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 64, global_batch_size: 128, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 8, seq_length: 2048, use_flash_attn: false, env.GAS: 64 GPU 1 Memory Allocated (%)

MODEL_SIZE: GPT1T_16L, env.MACHINE: Perlmutter, world_size: 64, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 64, global_batch_size: 128, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 8, seq_length: 2048, use_flash_attn: false, env.GAS: 64 GPU 2 Memory Allocated (%)

MODEL_SIZE: GPT1T_16L, env.MACHINE: Perlmutter, world_size: 64, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 64, global_batch_size: 128, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 8, seq_length: 2048, use_flash_attn: false, env.GAS: 64 GPU 3 Memory Allocated (%)

MODEL_SIZE: GPT1T_32L, env.MACHINE: Perlmutter, world_size: 128, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 128, global_batch_size: 256, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 16, seq_length: 2048, use_flash_attn: false, env.GAS: 128 GPU 0 Memory Allocated (%)

MODEL_SIZE: GPT1T_32L, env.MACHINE: Perlmutter, world_size: 128, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 128, global_batch_size: 256, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 16, seq_length: 2048, use_flash_attn: false, env.GAS: 128 GPU 1 Memory Allocated (%)

MODEL_SIZE: GPT1T_32L, env.MACHINE: Perlmutter, world_size: 128, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 128, global_batch_size: 256, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 16, seq_length: 2048, use_flash_attn: false, env.GAS: 128 GPU 2 Memory Allocated (%)

MODEL_SIZE: GPT1T_32L, env.MACHINE: Perlmutter, world_size: 128, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 128, global_batch_size: 256, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 16, seq_length: 2048, use_flash_attn: false, env.GAS: 128 GPU 3 Memory Allocated (%)

MODEL_SIZE: GPT1T_64L, env.MACHINE: Perlmutter, world_size: 256, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 256, global_batch_size: 512, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 32, seq_length: 2048, use_flash_attn: false, env.GAS: 256 GPU 0 Memory Allocated (%)

MODEL_SIZE: GPT1T_64L, env.MACHINE: Perlmutter, world_size: 256, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 256, global_batch_size: 512, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 32, seq_length: 2048, use_flash_attn: false, env.GAS: 256 GPU 1 Memory Allocated (%)

MODEL_SIZE: GPT1T_64L, env.MACHINE: Perlmutter, world_size: 256, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 256, global_batch_size: 512, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 32, seq_length: 2048, use_flash_attn: false, env.GAS: 256 GPU 2 Memory Allocated (%)

MODEL_SIZE: GPT1T_64L, env.MACHINE: Perlmutter, world_size: 256, micro_batch_size: 2, deepspeed_configuration.gradient_accumulation_steps: 256, global_batch_size: 512, zero_stage: 1, env.MPSIZE: 8, env.PPSIZE: 32, seq_length: 2048, use_flash_attn: false, env.GAS: 256 GPU 3 Memory Allocated (%)

Saforem2's workspace