ranuga-d

Crashed

Parameter Group 0 alpha: 0.75 differentiable: False foreach: None lambd: 0.0001 lr: 0.001 maximize: False t0: 1000000.0 weight_decay: 0 )-EfficientNet

ranuga-d

2y ago

1m 19s

-

CrossEntropyLoss()

1

EfficientNet( (features): Sequential( (0): Conv2dNormActivation( (0): Conv2d(1, 24, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.0, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.005, mode=row) ) ) (2): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(96, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.01, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.015000000000000003, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.02, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.025, mode=row) ) ) (3): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.030000000000000006, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.035, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.04, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.045, mode=row) ) ) (4): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=256, bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(256, 16, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(16, 256, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05500000000000001, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.06000000000000001, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.065, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.07, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.075, mode=row) ) ) (5): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 768, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(768, 768, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=768, bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(768, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 768, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(768, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.08, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.085, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.09, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.095, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.1, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.10500000000000001, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11000000000000001, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11500000000000002, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.12000000000000002, mode=row) ) ) (6): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.125, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.13, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.135, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14500000000000002, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.15, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.155, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.16, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.165, mode=row) ) (9): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.17, mode=row) ) (10): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.175, mode=row) ) (11): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.18, mode=row) ) (12): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.185, mode=row) ) (13): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.19, mode=row) ) (14): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.195, mode=row) ) ) (7): Conv2dNormActivation( (0): Conv2d(256, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1280, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (avgpool): AdaptiveAvgPool2d(output_size=1) (classifier): Sequential( (0): Dropout(p=0.2, inplace=True) (1): Linear(in_features=1280, out_features=10, bias=True) ) )

ASGD ( Parameter Group 0 alpha: 0.75 differentiable: False foreach: None lambd: 0.0001 lr: 0.001 maximize: False t0: 1000000.0 weight_decay: 0 )

-

Finished

Parameter Group 0 betas: (0.9, 0.999) differentiable: False eps: 1e-08 foreach: None lr: 0.001 maximize: False weight_decay: 0 )-EfficientNet

ranuga-d

2y ago

12m 49s

-

CrossEntropyLoss()

1

EfficientNet( (features): Sequential( (0): Conv2dNormActivation( (0): Conv2d(1, 24, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.0, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.005, mode=row) ) ) (2): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(96, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.01, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.015000000000000003, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.02, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.025, mode=row) ) ) (3): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.030000000000000006, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.035, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.04, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.045, mode=row) ) ) (4): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=256, bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(256, 16, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(16, 256, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05500000000000001, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.06000000000000001, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.065, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.07, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.075, mode=row) ) ) (5): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 768, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(768, 768, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=768, bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(768, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 768, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(768, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.08, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.085, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.09, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.095, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.1, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.10500000000000001, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11000000000000001, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11500000000000002, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.12000000000000002, mode=row) ) ) (6): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.125, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.13, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.135, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14500000000000002, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.15, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.155, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.16, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.165, mode=row) ) (9): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.17, mode=row) ) (10): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.175, mode=row) ) (11): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.18, mode=row) ) (12): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.185, mode=row) ) (13): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.19, mode=row) ) (14): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.195, mode=row) ) ) (7): Conv2dNormActivation( (0): Conv2d(256, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1280, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (avgpool): AdaptiveAvgPool2d(output_size=1) (classifier): Sequential( (0): Dropout(p=0.2, inplace=True) (1): Linear(in_features=1280, out_features=10, bias=True) ) )

Adamax ( Parameter Group 0 betas: (0.9, 0.999) differentiable: False eps: 1e-08 foreach: None lr: 0.001 maximize: False weight_decay: 0 )

32.39048

2.2492

0.3239

-

99.14286

0.030762

0.99143

Finished

Parameter Group 0 amsgrad: False betas: (0.9, 0.999) capturable: False differentiable: False eps: 1e-08 foreach: None fused: None lr: 0.001 maximize: False weight_decay: 0.01 )-EfficientNet

ranuga-d

2y ago

12m 18s

-

CrossEntropyLoss()

1

EfficientNet( (features): Sequential( (0): Conv2dNormActivation( (0): Conv2d(1, 24, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.0, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.005, mode=row) ) ) (2): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(96, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.01, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.015000000000000003, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.02, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.025, mode=row) ) ) (3): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.030000000000000006, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.035, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.04, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.045, mode=row) ) ) (4): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=256, bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(256, 16, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(16, 256, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05500000000000001, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.06000000000000001, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.065, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.07, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.075, mode=row) ) ) (5): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 768, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(768, 768, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=768, bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(768, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 768, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(768, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.08, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.085, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.09, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.095, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.1, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.10500000000000001, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11000000000000001, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11500000000000002, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.12000000000000002, mode=row) ) ) (6): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.125, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.13, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.135, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14500000000000002, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.15, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.155, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.16, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.165, mode=row) ) (9): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.17, mode=row) ) (10): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.175, mode=row) ) (11): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.18, mode=row) ) (12): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.185, mode=row) ) (13): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.19, mode=row) ) (14): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.195, mode=row) ) ) (7): Conv2dNormActivation( (0): Conv2d(256, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1280, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (avgpool): AdaptiveAvgPool2d(output_size=1) (classifier): Sequential( (0): Dropout(p=0.2, inplace=True) (1): Linear(in_features=1280, out_features=10, bias=True) ) )

AdamW ( Parameter Group 0 amsgrad: False betas: (0.9, 0.999) capturable: False differentiable: False eps: 1e-08 foreach: None fused: None lr: 0.001 maximize: False weight_decay: 0.01 )

19.38095

3.91307

0.19381

-

98.66984

0.043555

0.9867

Finished

Parameter Group 0 amsgrad: False betas: (0.9, 0.999) capturable: False differentiable: False eps: 1e-08 foreach: None fused: None lr: 0.001 maximize: False weight_decay: 0 )-EfficientNet

ranuga-d

2y ago

11m 55s

-

CrossEntropyLoss()

1

EfficientNet( (features): Sequential( (0): Conv2dNormActivation( (0): Conv2d(1, 24, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.0, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.005, mode=row) ) ) (2): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(96, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.01, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.015000000000000003, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.02, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.025, mode=row) ) ) (3): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.030000000000000006, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.035, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.04, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.045, mode=row) ) ) (4): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=256, bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(256, 16, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(16, 256, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05500000000000001, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.06000000000000001, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.065, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.07, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.075, mode=row) ) ) (5): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 768, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(768, 768, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=768, bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(768, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 768, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(768, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.08, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.085, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.09, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.095, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.1, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.10500000000000001, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11000000000000001, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11500000000000002, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.12000000000000002, mode=row) ) ) (6): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.125, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.13, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.135, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14500000000000002, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.15, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.155, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.16, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.165, mode=row) ) (9): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.17, mode=row) ) (10): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.175, mode=row) ) (11): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.18, mode=row) ) (12): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.185, mode=row) ) (13): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.19, mode=row) ) (14): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.195, mode=row) ) ) (7): Conv2dNormActivation( (0): Conv2d(256, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1280, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (avgpool): AdaptiveAvgPool2d(output_size=1) (classifier): Sequential( (0): Dropout(p=0.2, inplace=True) (1): Linear(in_features=1280, out_features=10, bias=True) ) )

Adam ( Parameter Group 0 amsgrad: False betas: (0.9, 0.999) capturable: False differentiable: False eps: 1e-08 foreach: None fused: None lr: 0.001 maximize: False weight_decay: 0 )

94.68571

0.17121

0.94686

-

99.0127

0.030948

0.99013

Killed

Parameter Group 0 differentiable: False eps: 1e-06 foreach: None lr: 0.001 maximize: False rho: 0.9 weight_decay: 0 )-EfficientNet

ranuga-d

2y ago

16m 40s

-

CrossEntropyLoss()

1

EfficientNet( (features): Sequential( (0): Conv2dNormActivation( (0): Conv2d(1, 24, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.0, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.005, mode=row) ) ) (2): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(96, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.01, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.015000000000000003, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.02, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.025, mode=row) ) ) (3): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.030000000000000006, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.035, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.04, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.045, mode=row) ) ) (4): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=256, bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(256, 16, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(16, 256, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05500000000000001, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.06000000000000001, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.065, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.07, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.075, mode=row) ) ) (5): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 768, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(768, 768, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=768, bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(768, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 768, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(768, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.08, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.085, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.09, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.095, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.1, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.10500000000000001, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11000000000000001, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11500000000000002, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.12000000000000002, mode=row) ) ) (6): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.125, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.13, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.135, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14500000000000002, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.15, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.155, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.16, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.165, mode=row) ) (9): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.17, mode=row) ) (10): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.175, mode=row) ) (11): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.18, mode=row) ) (12): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.185, mode=row) ) (13): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.19, mode=row) ) (14): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.195, mode=row) ) ) (7): Conv2dNormActivation( (0): Conv2d(256, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1280, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (avgpool): AdaptiveAvgPool2d(output_size=1) (classifier): Sequential( (0): Dropout(p=0.2, inplace=True) (1): Linear(in_features=1280, out_features=10, bias=True) ) )

Adadelta ( Parameter Group 0 differentiable: False eps: 1e-06 foreach: None lr: 0.001 maximize: False rho: 0.9 weight_decay: 0 )

11.41905

2.31109

0.11419

-

78.59048

1.47664

0.7859

Crashed

-

ranuga-d

2y ago

35m 33s

-

CrossEntropyLoss()

5

EfficientNet( (features): Sequential( (0): Conv2dNormActivation( (0): Conv2d(1, 24, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.0, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 24, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(24, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (stochastic_depth): StochasticDepth(p=0.005, mode=row) ) ) (2): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(24, 96, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(96, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(96, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.01, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.015000000000000003, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.02, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 48, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(48, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.025, mode=row) ) ) (3): Sequential( (0): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(48, 192, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False) (1): BatchNorm2d(192, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(192, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.030000000000000006, mode=row) ) (1): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.035, mode=row) ) (2): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.04, mode=row) ) (3): FusedMBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(64, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.045, mode=row) ) ) (4): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(256, 256, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=256, bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(256, 16, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(16, 256, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.05500000000000001, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.06000000000000001, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.065, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.07, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(512, 512, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=512, bias=False) (1): BatchNorm2d(512, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(512, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 512, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(128, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.075, mode=row) ) ) (5): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(128, 768, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(768, 768, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=768, bias=False) (1): BatchNorm2d(768, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(768, 32, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(32, 768, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(768, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.08, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.085, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.09, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.095, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.1, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.10500000000000001, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11000000000000001, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.11500000000000002, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 160, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(160, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.12000000000000002, mode=row) ) ) (6): Sequential( (0): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(160, 960, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(960, 960, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), groups=960, bias=False) (1): BatchNorm2d(960, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(960, 40, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(40, 960, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(960, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.125, mode=row) ) (1): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.13, mode=row) ) (2): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.135, mode=row) ) (3): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14, mode=row) ) (4): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.14500000000000002, mode=row) ) (5): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.15, mode=row) ) (6): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.155, mode=row) ) (7): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.16, mode=row) ) (8): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.165, mode=row) ) (9): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.17, mode=row) ) (10): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.175, mode=row) ) (11): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.18, mode=row) ) (12): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.185, mode=row) ) (13): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.19, mode=row) ) (14): MBConv( (block): Sequential( (0): Conv2dNormActivation( (0): Conv2d(256, 1536, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (1): Conv2dNormActivation( (0): Conv2d(1536, 1536, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), groups=1536, bias=False) (1): BatchNorm2d(1536, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) (2): SqueezeExcitation( (avgpool): AdaptiveAvgPool2d(output_size=1) (fc1): Conv2d(1536, 64, kernel_size=(1, 1), stride=(1, 1)) (fc2): Conv2d(64, 1536, kernel_size=(1, 1), stride=(1, 1)) (activation): SiLU(inplace=True) (scale_activation): Sigmoid() ) (3): Conv2dNormActivation( (0): Conv2d(1536, 256, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(256, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) ) ) (stochastic_depth): StochasticDepth(p=0.195, mode=row) ) ) (7): Conv2dNormActivation( (0): Conv2d(256, 1280, kernel_size=(1, 1), stride=(1, 1), bias=False) (1): BatchNorm2d(1280, eps=0.001, momentum=0.1, affine=True, track_running_stats=True) (2): SiLU(inplace=True) ) ) (avgpool): AdaptiveAvgPool2d(output_size=1) (classifier): Sequential( (0): Dropout(p=0.2, inplace=True) (1): Linear(in_features=1280, out_features=10, bias=True) ) )

Adam ( Parameter Group 0 amsgrad: False betas: (0.9, 0.999) capturable: False differentiable: False eps: 1e-08 foreach: None fused: None lr: 0.001 maximize: False weight_decay: 0 )

26.78095

4.03554

0.26781

-

99.14921

0.026509

0.99149

Ranuga-d's workspace