apiche

Apiche's workspace

Runs

420

actor.threads_per_llm

Crashed

apiche

2mo ago

2h 21m 54s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc24530f50>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-7B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

1m 1s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246d6b50>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-7B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

4m 43s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc24530cd0>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-7B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

25m 22s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffcb053d990>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-7B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

4m 20s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffcb4261f10>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

1h 5m 50s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246daa90>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

1h 41m 26s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246e1fd0>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

2h 48m 52s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246da510>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

21m 29s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc2452fad0>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

Crashed

Killed

apiche

2mo ago

1h 15m 46s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc2452e750>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

18m 17s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246deb90>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

7m 46s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc245cd650>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

25m 44s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc24762050>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

57m 16s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246ef2d0>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

12m 19s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc2453b190>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

17m 24s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246dc250>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

34m 28s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffc246d65d0>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

5m 37s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffcb053f8d0>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

78000

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

45m 43s

False

nccl

true

False

deepspeed_stage3_bf16

DeepSpeedPlugin(hf_ds_config=<accelerate.utils.deepspeed.HfDeepSpeedConfig object at 0x7ffcb076d950>, gradient_accumulation_steps=1, gradient_clipping='auto', zero_stage=3, is_train_batch_min=True, offload_optimizer_device='none', offload_param_device='none', offload_optimizer_nvme_path='none', offload_param_nvme_path='none', zero3_init_flag=True, zero3_save_16bit_model=True, transformer_moe_cls_names=None, enable_msamp=False, msamp_opt_level='O1')

cuda:0

DistributedType.DEEPSPEED

TorchDynamoPlugin(backend=<DynamoBackend.NO: 'NO'>, mode='default', fullgraph=False, dynamic=None, options=None, disable=False, use_regional_compilation=False)

78000

flash_attention_2

false

Qwen/Qwen2.5-0.5B

true

tapeagents.finetune.eval.dummy_eval_callback

true

1024

true

0.3

training_data

-1

true

0.000001

true

Crashed

apiche

2mo ago

33m 29s

actor

true

deepspeed_stage3_bf16

78000

flash_attention_2

false

/mnt/llmd/base_models/Mistral-Small-24B-Base-2501/

true

tapeagents.finetune.eval.dummy_eval_callback

true

0.3

training_data

-1

true

0.000001

true

1-20

of 175