Improving kwarg merging in more models

rwightman · rwightman · commit c0d7388a1b28 · 2023-01-09T08:57:31.000-08:00
diff --git a/timm/models/dpn.py b/timm/models/dpn.py
@@ -15,7 +15,7 @@
 import torch.nn.functional as F
 
 from timm.data import IMAGENET_DPN_MEAN, IMAGENET_DPN_STD, IMAGENET_DEFAULT_MEAN, IMAGENET_DEFAULT_STD
-from timm.layers import BatchNormAct2d, ConvNormAct, create_conv2d, create_classifier
+from timm.layers import BatchNormAct2d, ConvNormAct, create_conv2d, create_classifier, get_norm_act_layer
 from ._builder import build_model_with_cfg
 from ._registry import register_model
 
@@ -33,6 +33,7 @@ def _cfg(url='', **kwargs):
 
 
 default_cfgs = {
+    'dpn48b': _cfg(mean=IMAGENET_DEFAULT_MEAN, std=IMAGENET_DEFAULT_STD),
     'dpn68': _cfg(
         url='https://github.com/rwightman/pytorch-dpn-pretrained/releases/download/v0.1/dpn68-66bebafa7.pth'),
     'dpn68b': _cfg(
@@ -82,7 +83,16 @@ def forward(self, x):
 
 class DualPathBlock(nn.Module):
     def __init__(
-            self, in_chs, num_1x1_a, num_3x3_b, num_1x1_c, inc, groups, block_type='normal', b=False):
+            self,
+            in_chs,
+            num_1x1_a,
+            num_3x3_b,
+            num_1x1_c,
+            inc,
+            groups,
+            block_type='normal',
+            b=False,
+    ):
         super(DualPathBlock, self).__init__()
         self.num_1x1_c = num_1x1_c
         self.inc = inc
@@ -167,16 +177,31 @@ def forward(self, x) -> Tuple[torch.Tensor, torch.Tensor]:
 
 class DPN(nn.Module):
     def __init__(
-            self, small=False, num_init_features=64, k_r=96, groups=32, global_pool='avg',
-            b=False, k_sec=(3, 4, 20, 3), inc_sec=(16, 32, 24, 128), output_stride=32,
-            num_classes=1000, in_chans=3, drop_rate=0., fc_act_layer=nn.ELU):
+            self,
+            num_classes=1000,
+            in_chans=3,
+            output_stride=32,
+            global_pool='avg',
+            k_sec=(3, 4, 20, 3),
+            inc_sec=(16, 32, 24, 128),
+            k_r=96,
+            groups=32,
+            small=False,
+            num_init_features=64,
+            b=False,
+            drop_rate=0.,
+            norm_layer='batchnorm2d',
+            act_layer='relu',
+            fc_act_layer=nn.ELU,
+    ):
         super(DPN, self).__init__()
         self.num_classes = num_classes
         self.drop_rate = drop_rate
         self.b = b
         assert output_stride == 32  # FIXME look into dilation support
-        norm_layer = partial(BatchNormAct2d, eps=.001)
-        fc_norm_layer = partial(BatchNormAct2d, eps=.001, act_layer=fc_act_layer, inplace=False)
+
+        norm_layer = partial(get_norm_act_layer(norm_layer, act_layer=act_layer), eps=.001)
+        fc_norm_layer = partial(get_norm_act_layer(norm_layer, act_layer=fc_act_layer), eps=.001, inplace=False)
         bw_factor = 1 if small else 4
         blocks = OrderedDict()
 
@@ -291,49 +316,57 @@ def _create_dpn(variant, pretrained=False, **kwargs):
         **kwargs)
 
 
+@register_model
+def dpn48b(pretrained=False, **kwargs):
+    model_kwargs = dict(
+        small=True, num_init_features=10, k_r=128, groups=32,
+        b=True, k_sec=(3, 4, 6, 3), inc_sec=(16, 32, 32, 64), act_layer='silu')
+    return _create_dpn('dpn48b', pretrained=pretrained, **dict(model_kwargs, **kwargs))
+
+
 @register_model
 def dpn68(pretrained=False, **kwargs):
     model_kwargs = dict(
         small=True, num_init_features=10, k_r=128, groups=32,
-        k_sec=(3, 4, 12, 3), inc_sec=(16, 32, 32, 64), **kwargs)
-    return _create_dpn('dpn68', pretrained=pretrained, **model_kwargs)
+        k_sec=(3, 4, 12, 3), inc_sec=(16, 32, 32, 64))
+    return _create_dpn('dpn68', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
 def dpn68b(pretrained=False, **kwargs):
     model_kwargs = dict(
         small=True, num_init_features=10, k_r=128, groups=32,
-        b=True, k_sec=(3, 4, 12, 3), inc_sec=(16, 32, 32, 64), **kwargs)
-    return _create_dpn('dpn68b', pretrained=pretrained, **model_kwargs)
+        b=True, k_sec=(3, 4, 12, 3), inc_sec=(16, 32, 32, 64))
+    return _create_dpn('dpn68b', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
 def dpn92(pretrained=False, **kwargs):
     model_kwargs = dict(
         num_init_features=64, k_r=96, groups=32,
-        k_sec=(3, 4, 20, 3), inc_sec=(16, 32, 24, 128), **kwargs)
-    return _create_dpn('dpn92', pretrained=pretrained, **model_kwargs)
+        k_sec=(3, 4, 20, 3), inc_sec=(16, 32, 24, 128))
+    return _create_dpn('dpn92', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
 def dpn98(pretrained=False, **kwargs):
     model_kwargs = dict(
         num_init_features=96, k_r=160, groups=40,
-        k_sec=(3, 6, 20, 3), inc_sec=(16, 32, 32, 128), **kwargs)
-    return _create_dpn('dpn98', pretrained=pretrained, **model_kwargs)
+        k_sec=(3, 6, 20, 3), inc_sec=(16, 32, 32, 128))
+    return _create_dpn('dpn98', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
 def dpn131(pretrained=False, **kwargs):
     model_kwargs = dict(
         num_init_features=128, k_r=160, groups=40,
-        k_sec=(4, 8, 28, 3), inc_sec=(16, 32, 32, 128), **kwargs)
-    return _create_dpn('dpn131', pretrained=pretrained, **model_kwargs)
+        k_sec=(4, 8, 28, 3), inc_sec=(16, 32, 32, 128))
+    return _create_dpn('dpn131', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
 def dpn107(pretrained=False, **kwargs):
     model_kwargs = dict(
         num_init_features=128, k_r=200, groups=50,
-        k_sec=(4, 8, 20, 3), inc_sec=(20, 64, 64, 128), **kwargs)
-    return _create_dpn('dpn107', pretrained=pretrained, **model_kwargs)
+        k_sec=(4, 8, 20, 3), inc_sec=(20, 64, 64, 128))
+    return _create_dpn('dpn107', pretrained=pretrained, **dict(model_kwargs, **kwargs))
diff --git a/timm/models/maxxvit.py b/timm/models/maxxvit.py
@@ -1116,6 +1116,26 @@ def forward(self, x, pre_logits: bool = False):
         return x
 
 
+def _overlay_kwargs(cfg: MaxxVitCfg, **kwargs):
+    transformer_kwargs = {}
+    conv_kwargs = {}
+    base_kwargs = {}
+    for k, v in kwargs.items():
+        if k.startswith('transformer_'):
+            transformer_kwargs[k.replace('transformer_', '')] = v
+        elif k.startswith('conv_'):
+            conv_kwargs[k.replace('conv_', '')] = v
+        else:
+            base_kwargs[k] = v
+    cfg = replace(
+        cfg,
+        transformer_cfg=replace(cfg.transformer_cfg, **transformer_kwargs),
+        conv_cfg=replace(cfg.conv_cfg, **conv_kwargs),
+        **base_kwargs
+    )
+    return cfg
+
+
 class MaxxVit(nn.Module):
     """ CoaTNet + MaxVit base model.
 
@@ -1130,10 +1150,13 @@ def __init__(
             num_classes: int = 1000,
             global_pool: str = 'avg',
             drop_rate: float = 0.,
-            drop_path_rate: float = 0.
+            drop_path_rate: float = 0.,
+            **kwargs,
     ):
         super().__init__()
         img_size = to_2tuple(img_size)
+        if kwargs:
+            cfg = _overlay_kwargs(cfg, **kwargs)
         transformer_cfg = cfg_window_size(cfg.transformer_cfg, img_size)
         self.num_classes = num_classes
         self.global_pool = global_pool
diff --git a/timm/models/res2net.py b/timm/models/res2net.py
@@ -156,8 +156,8 @@ def res2net50_26w_4s(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=26, block_args=dict(scale=4), **kwargs)
-    return _create_res2net('res2net50_26w_4s', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=26, block_args=dict(scale=4))
+    return _create_res2net('res2net50_26w_4s', pretrained, **dict(model_args, **kwargs))
 
 
 @register_model
@@ -167,8 +167,8 @@ def res2net101_26w_4s(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 23, 3], base_width=26, block_args=dict(scale=4), **kwargs)
-    return _create_res2net('res2net101_26w_4s', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 23, 3], base_width=26, block_args=dict(scale=4))
+    return _create_res2net('res2net101_26w_4s', pretrained, **dict(model_args, **kwargs))
 
 
 @register_model
@@ -178,8 +178,8 @@ def res2net50_26w_6s(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=26, block_args=dict(scale=6), **kwargs)
-    return _create_res2net('res2net50_26w_6s', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=26, block_args=dict(scale=6))
+    return _create_res2net('res2net50_26w_6s', pretrained, **dict(model_args, **kwargs))
 
 
 @register_model
@@ -189,8 +189,8 @@ def res2net50_26w_8s(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=26, block_args=dict(scale=8), **kwargs)
-    return _create_res2net('res2net50_26w_8s', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=26, block_args=dict(scale=8))
+    return _create_res2net('res2net50_26w_8s', pretrained, **dict(model_args, **kwargs))
 
 
 @register_model
@@ -200,8 +200,8 @@ def res2net50_48w_2s(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=48, block_args=dict(scale=2), **kwargs)
-    return _create_res2net('res2net50_48w_2s', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=48, block_args=dict(scale=2))
+    return _create_res2net('res2net50_48w_2s', pretrained, **dict(model_args, **kwargs))
 
 
 @register_model
@@ -211,8 +211,8 @@ def res2net50_14w_8s(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=14, block_args=dict(scale=8), **kwargs)
-    return _create_res2net('res2net50_14w_8s', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=14, block_args=dict(scale=8))
+    return _create_res2net('res2net50_14w_8s', pretrained, **dict(model_args, **kwargs))
 
 
 @register_model
@@ -222,5 +222,5 @@ def res2next50(pretrained=False, **kwargs):
         pretrained (bool): If True, returns a model pre-trained on ImageNet
     """
     model_args = dict(
-        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=4, cardinality=8, block_args=dict(scale=4), **kwargs)
-    return _create_res2net('res2next50', pretrained, **model_args)
+        block=Bottle2neck, layers=[3, 4, 6, 3], base_width=4, cardinality=8, block_args=dict(scale=4))
+    return _create_res2net('res2next50', pretrained, **dict(model_args, **kwargs))
diff --git a/timm/models/resnest.py b/timm/models/resnest.py
@@ -163,8 +163,8 @@ def resnest14d(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[1, 1, 1, 1],
         stem_type='deep', stem_width=32, avg_down=True, base_width=64, cardinality=1,
-        block_args=dict(radix=2, avd=True, avd_first=False), **kwargs)
-    return _create_resnest('resnest14d', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=2, avd=True, avd_first=False))
+    return _create_resnest('resnest14d', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -174,8 +174,8 @@ def resnest26d(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[2, 2, 2, 2],
         stem_type='deep', stem_width=32, avg_down=True, base_width=64, cardinality=1,
-        block_args=dict(radix=2, avd=True, avd_first=False), **kwargs)
-    return _create_resnest('resnest26d', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=2, avd=True, avd_first=False))
+    return _create_resnest('resnest26d', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -186,8 +186,8 @@ def resnest50d(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[3, 4, 6, 3],
         stem_type='deep', stem_width=32, avg_down=True, base_width=64, cardinality=1,
-        block_args=dict(radix=2, avd=True, avd_first=False), **kwargs)
-    return _create_resnest('resnest50d', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=2, avd=True, avd_first=False))
+    return _create_resnest('resnest50d', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -198,8 +198,8 @@ def resnest101e(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[3, 4, 23, 3],
         stem_type='deep', stem_width=64, avg_down=True, base_width=64, cardinality=1,
-        block_args=dict(radix=2, avd=True, avd_first=False), **kwargs)
-    return _create_resnest('resnest101e', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=2, avd=True, avd_first=False))
+    return _create_resnest('resnest101e', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -210,8 +210,8 @@ def resnest200e(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[3, 24, 36, 3],
         stem_type='deep', stem_width=64, avg_down=True, base_width=64, cardinality=1,
-        block_args=dict(radix=2, avd=True, avd_first=False), **kwargs)
-    return _create_resnest('resnest200e', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=2, avd=True, avd_first=False))
+    return _create_resnest('resnest200e', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -222,8 +222,8 @@ def resnest269e(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[3, 30, 48, 8],
         stem_type='deep', stem_width=64, avg_down=True, base_width=64, cardinality=1,
-        block_args=dict(radix=2, avd=True, avd_first=False), **kwargs)
-    return _create_resnest('resnest269e', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=2, avd=True, avd_first=False))
+    return _create_resnest('resnest269e', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -233,8 +233,8 @@ def resnest50d_4s2x40d(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[3, 4, 6, 3],
         stem_type='deep', stem_width=32, avg_down=True, base_width=40, cardinality=2,
-        block_args=dict(radix=4, avd=True, avd_first=True), **kwargs)
-    return _create_resnest('resnest50d_4s2x40d', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=4, avd=True, avd_first=True))
+    return _create_resnest('resnest50d_4s2x40d', pretrained=pretrained, **dict(model_kwargs, **kwargs))
 
 
 @register_model
@@ -244,5 +244,5 @@ def resnest50d_1s4x24d(pretrained=False, **kwargs):
     model_kwargs = dict(
         block=ResNestBottleneck, layers=[3, 4, 6, 3],
         stem_type='deep', stem_width=32, avg_down=True, base_width=24, cardinality=4,
-        block_args=dict(radix=1, avd=True, avd_first=True), **kwargs)
-    return _create_resnest('resnest50d_1s4x24d', pretrained=pretrained, **model_kwargs)
+        block_args=dict(radix=1, avd=True, avd_first=True))
+    return _create_resnest('resnest50d_1s4x24d', pretrained=pretrained, **dict(model_kwargs, **kwargs))
diff --git a/timm/models/resnet.py b/timm/models/resnet.py