Merge pull request #81 from SegmentationBLWX/dev

CharlesPikachu · web-flow · commit 6d0238f5ec4d · 2025-06-19T01:40:57.000+08:00
merge tests
diff --git a/ssseg/modules/models/backbones/swin.py b/ssseg/modules/models/backbones/swin.py
@@ -24,6 +24,7 @@
     'swin_base_patch4_window12_384_22k': 'https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_base_patch4_window12_384_22k.pth',
     'swin_base_patch4_window7_224_22k': 'https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_base_patch4_window7_224_22k.pth',
     'swin_large_patch4_window12_384_22k': 'https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_large_patch4_window12_384_22k.pth',
+    'swin_large_patch4_window12_384_22kto1k': 'https://github.com/SwinTransformer/storage/releases/download/v1.0.0/swin_large_patch4_window12_384_22kto1k.pth',
 }
 '''AUTO_ASSERT_STRUCTURE_TYPES'''
 AUTO_ASSERT_STRUCTURE_TYPES = {
@@ -62,6 +63,11 @@
         'depths': [2, 2, 18, 2], 'num_heads': [6, 12, 24, 48], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
         'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,
     },
+    'swin_large_patch4_window12_384_22kto1k': {
+        'pretrain_img_size': 384, 'in_channels': 3, 'embed_dims': 192, 'patch_size': 4, 'window_size': 12, 'mlp_ratio': 4,
+        'depths': [2, 2, 18, 2], 'num_heads': [6, 12, 24, 48], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+        'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,
+    },
 }
 
 
diff --git a/ssseg/modules/models/backbones/vit.py b/ssseg/modules/models/backbones/vit.py
@@ -71,7 +71,7 @@ def _forward(x):
 class VisionTransformer(nn.Module):
     def __init__(self, structure_type, img_size=224, patch_size=16, patch_pad='corner', in_channels=3, embed_dims=768, num_layers=12, num_heads=12, mlp_ratio=4, out_origin=False, out_indices=(9, 14, 19, 23),
                  qkv_bias=True, drop_rate=0., attn_drop_rate=0., drop_path_rate=0., with_cls_token=True, output_cls_token=False, norm_cfg={'type': 'LayerNorm', 'eps': 1e-6}, act_cfg={'type': 'GELU'}, 
-                 patch_norm=False, patch_bias=False, pre_norm=False, final_norm=False, interpolate_mode='bilinear', num_fcs=2, use_checkpoint=False, pretrained=True, pretrained_model_path=''):
+                 patch_norm=False, patch_bias=True, pre_norm=False, final_norm=False, interpolate_mode='bilinear', num_fcs=2, use_checkpoint=False, pretrained=True, pretrained_model_path=''):
         super(VisionTransformer, self).__init__()
         img_size = tolen2tuple(img_size)
         # set attributes
diff --git a/tests/test_backbones/test_mit.py b/tests/test_backbones/test_mit.py
@@ -0,0 +1,51 @@
+'''
+Function:
+    Implementation of Testing MiT
+Author:
+    Zhenchao Jin
+'''
+from ssseg.modules import BuildBackbone, loadpretrainedweights
+from ssseg.modules.models.backbones.mit import DEFAULT_MODEL_URLS
+
+
+'''MiTs'''
+cfgs = [
+{'type': 'MixVisionTransformer', 'structure_type': 'mit-b0', 'pretrained': True, 'pretrained_model_path': 'mit_b0.pth',
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6},
+ 'embed_dims': 32, 'num_stages': 4, 'num_layers': [2, 2, 2, 2], 'num_heads': [1, 2, 5, 8], 'patch_sizes': [7, 3, 3, 3],
+ 'sr_ratios': [8, 4, 2, 1], 'mlp_ratio': 4, 'qkv_bias': True, 'drop_rate': 0.0, 'attn_drop_rate': 0.0, 'drop_path_rate': 0.1,},
+{'type': 'MixVisionTransformer', 'structure_type': 'mit-b1', 'pretrained': True, 'pretrained_model_path': 'mit_b1.pth',
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6},
+ 'embed_dims': 64, 'num_stages': 4, 'num_layers': [2, 2, 2, 2], 'num_heads': [1, 2, 5, 8], 'patch_sizes': [7, 3, 3, 3],
+ 'sr_ratios': [8, 4, 2, 1], 'mlp_ratio': 4, 'qkv_bias': True, 'drop_rate': 0.0, 'attn_drop_rate': 0.0, 'drop_path_rate': 0.1,},
+{'type': 'MixVisionTransformer', 'structure_type': 'mit-b2', 'pretrained': True, 'pretrained_model_path': 'mit_b2.pth',
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6},
+ 'embed_dims': 64, 'num_stages': 4, 'num_layers': [3, 4, 6, 3], 'num_heads': [1, 2, 5, 8], 'patch_sizes': [7, 3, 3, 3],
+ 'sr_ratios': [8, 4, 2, 1], 'mlp_ratio': 4, 'qkv_bias': True, 'drop_rate': 0.0, 'attn_drop_rate': 0.0, 'drop_path_rate': 0.1,},
+{'type': 'MixVisionTransformer', 'structure_type': 'mit-b3', 'pretrained': True, 'pretrained_model_path': 'mit_b3.pth',
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6},
+ 'embed_dims': 64, 'num_stages': 4, 'num_layers': [3, 4, 18, 3], 'num_heads': [1, 2, 5, 8], 'patch_sizes': [7, 3, 3, 3],
+ 'sr_ratios': [8, 4, 2, 1], 'mlp_ratio': 4, 'qkv_bias': True, 'drop_rate': 0.0, 'attn_drop_rate': 0.0, 'drop_path_rate': 0.1,},
+{'type': 'MixVisionTransformer', 'structure_type': 'mit-b4', 'pretrained': True, 'pretrained_model_path': 'mit_b4.pth',
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6},
+ 'embed_dims': 64, 'num_stages': 4, 'num_layers': [3, 8, 27, 3], 'num_heads': [1, 2, 5, 8], 'patch_sizes': [7, 3, 3, 3],
+ 'sr_ratios': [8, 4, 2, 1], 'mlp_ratio': 4, 'qkv_bias': True, 'drop_rate': 0.0, 'attn_drop_rate': 0.0, 'drop_path_rate': 0.1,},
+{'type': 'MixVisionTransformer', 'structure_type': 'mit-b5', 'pretrained': True, 'pretrained_model_path': 'mit_b5.pth', 
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6},
+ 'embed_dims': 64, 'num_stages': 4, 'num_layers': [3, 6, 40, 3], 'num_heads': [1, 2, 5, 8], 'patch_sizes': [7, 3, 3, 3],
+ 'sr_ratios': [8, 4, 2, 1], 'mlp_ratio': 4, 'qkv_bias': True, 'drop_rate': 0.0, 'attn_drop_rate': 0.0, 'drop_path_rate': 0.1,},
+]
+for cfg in cfgs:
+    mit = BuildBackbone(backbone_cfg=cfg)
+    state_dict = loadpretrainedweights(
+        structure_type=cfg['structure_type'], pretrained_model_path='', default_model_urls=DEFAULT_MODEL_URLS
+    )
+    state_dict = mit.mitconvert(state_dict)
+    try:
+        mit.load_state_dict(state_dict, strict=False)
+    except Exception as err:
+        print(err)
+    try:
+        mit.load_state_dict(state_dict, strict=True)
+    except Exception as err:
+        print(err)
diff --git a/tests/test_backbones/test_mobilenet.py b/tests/test_backbones/test_mobilenet.py
@@ -0,0 +1,57 @@
+'''
+Function:
+    Implementation of Testing Mobilenets
+Author:
+    Zhenchao Jin
+'''
+from ssseg.modules import BuildBackbone, loadpretrainedweights
+from ssseg.modules.models.backbones.mobilenet import DEFAULT_MODEL_URLS
+
+
+'''mobilenetv2'''
+cfgs = [
+    {'type': 'MobileNetV2', 'structure_type': 'mobilenetv2', 'pretrained': True, 'outstride': 8, 'selected_indices': (0, 1, 2, 3),},
+]
+for cfg in cfgs:
+    mobilenet = BuildBackbone(backbone_cfg=cfg)
+    state_dict = loadpretrainedweights(structure_type=cfg['structure_type'], pretrained_model_path='', default_model_urls=DEFAULT_MODEL_URLS)
+    keys = list(state_dict.keys())
+    for key in keys:
+        if key.startswith('backbone.'):
+            value = state_dict.pop(key)
+            key = '.'.join(key.split('.')[1:])
+            state_dict[key] = value
+    try:
+        mobilenet.load_state_dict(state_dict, strict=False)
+    except Exception as err:
+        print(err)
+    try:
+        mobilenet.load_state_dict(state_dict, strict=True)
+    except Exception as err:
+        print(err)
+
+
+'''mobilenetv3'''
+cfgs = [
+    {'type': 'MobileNetV3', 'structure_type': 'mobilenetv3_small', 'pretrained': True, 'outstride': 8,
+     'arch_type': 'small', 'out_indices': (0, 1, 12), 'selected_indices': (0, 1, 2),},
+    {'type': 'MobileNetV3', 'structure_type': 'mobilenetv3_large', 'pretrained': True,
+     'outstride': 8, 'arch_type': 'large', 'selected_indices': (0, 1, 2),},
+]
+for cfg in cfgs:
+    mobilenet = BuildBackbone(backbone_cfg=cfg)
+    state_dict = loadpretrainedweights(structure_type=cfg['structure_type'], pretrained_model_path='', default_model_urls=DEFAULT_MODEL_URLS)
+    keys = list(state_dict.keys())
+    for key in keys:
+        if key.startswith('backbone.'):
+            value = state_dict.pop(key)
+            key = '.'.join(key.split('.')[1:])
+            state_dict[key] = value
+    try:
+        mobilenet.load_state_dict(state_dict, strict=False)
+    except Exception as err:
+        print(err)
+    try:
+        mobilenet.load_state_dict(state_dict, strict=True)
+    except Exception as err:
+        print(err)
diff --git a/tests/test_backbones/test_swin.py b/tests/test_backbones/test_swin.py
@@ -0,0 +1,99 @@
+'''
+Function:
+    Implementation of Testing SwinTransformer
+Author:
+    Zhenchao Jin
+'''
+import torch.nn.functional as F
+from ssseg.modules import BuildBackbone, loadpretrainedweights
+from ssseg.modules.models.backbones.swin import DEFAULT_MODEL_URLS
+
+
+'''SwinTransformers'''
+cfgs = [
+{'type': 'SwinTransformer', 'structure_type': 'swin_large_patch4_window12_384_22kto1k', 'pretrained': True, 
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 384, 'in_channels': 3, 'embed_dims': 192, 'patch_size': 4, 'window_size': 12, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [6, 12, 24, 48], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_large_patch4_window12_384_22k', 'pretrained': True, 
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 384, 'in_channels': 3, 'embed_dims': 192, 'patch_size': 4, 'window_size': 12, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [6, 12, 24, 48], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_base_patch4_window12_384', 'pretrained': True,
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 384, 'in_channels': 3, 'embed_dims': 128, 'patch_size': 4, 'window_size': 12, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [4, 8, 16, 32], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_base_patch4_window7_224', 'pretrained': True,
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 224, 'in_channels': 3, 'embed_dims': 128, 'patch_size': 4, 'window_size': 7, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [4, 8, 16, 32], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_base_patch4_window12_384_22k', 'pretrained': True,
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 384, 'in_channels': 3, 'embed_dims': 128, 'patch_size': 4, 'window_size': 12, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [4, 8, 16, 32], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_base_patch4_window7_224_22k', 'pretrained': True,
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 224, 'in_channels': 3, 'embed_dims': 128, 'patch_size': 4, 'window_size': 7, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [4, 8, 16, 32], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_small_patch4_window7_224', 'pretrained': True, 
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 224, 'in_channels': 3, 'embed_dims': 96, 'patch_size': 4, 'window_size': 7, 'mlp_ratio': 4,
+ 'depths': [2, 2, 18, 2], 'num_heads': [3, 6, 12, 24], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True,
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+{'type': 'SwinTransformer', 'structure_type': 'swin_tiny_patch4_window7_224', 'pretrained': True, 
+ 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'pretrain_img_size': 224, 'in_channels': 3, 'embed_dims': 96, 'patch_size': 4, 'window_size': 7, 'mlp_ratio': 4, 
+ 'depths': [2, 2, 6, 2], 'num_heads': [3, 6, 12, 24], 'qkv_bias': True, 'qk_scale': None, 'patch_norm': True, 
+ 'drop_rate': 0., 'attn_drop_rate': 0., 'drop_path_rate': 0.3, 'use_abs_pos_embed': False,},
+]
+for cfg in cfgs:
+    swin = BuildBackbone(cfg)
+    state_dict = loadpretrainedweights(
+        structure_type=cfg['structure_type'], pretrained_model_path='', default_model_urls=DEFAULT_MODEL_URLS
+    )
+    state_dict = swin.swinconvert(state_dict)
+    # be consistent
+    from collections import OrderedDict
+    state_dict_new = OrderedDict()
+    for k, v in state_dict.items():
+        if k.startswith('backbone.'):
+            state_dict_new[k[9:]] = v
+        else:
+            state_dict_new[k] = v
+    state_dict = state_dict_new
+    # strip prefix of state_dict
+    if list(state_dict.keys())[0].startswith('module.'):
+        state_dict = {k[7:]: v for k, v in state_dict.items()}
+    # reshape absolute position embedding
+    if state_dict.get('absolute_pos_embed') is not None:
+        absolute_pos_embed = state_dict['absolute_pos_embed']
+        N1, L, C1 = absolute_pos_embed.size()
+        N2, C2, H, W = swin.absolute_pos_embed.size()
+        if not (N1 != N2 or C1 != C2 or L != H * W):
+            state_dict['absolute_pos_embed'] = absolute_pos_embed.view(N2, H, W, C2).permute(0, 3, 1, 2).contiguous()
+    # interpolate position bias table if needed
+    relative_position_bias_table_keys = [k for k in state_dict.keys() if 'relative_position_bias_table' in k]
+    for table_key in relative_position_bias_table_keys:
+        table_pretrained = state_dict[table_key]
+        table_current = swin.state_dict()[table_key]
+        L1, nH1 = table_pretrained.size()
+        L2, nH2 = table_current.size()
+        if (nH1 == nH2) and (L1 != L2):
+            S1 = int(L1**0.5)
+            S2 = int(L2**0.5)
+            table_pretrained_resized = F.interpolate(table_pretrained.permute(1, 0).reshape(1, nH1, S1, S1), size=(S2, S2), mode='bicubic')
+            state_dict[table_key] = table_pretrained_resized.view(nH2, L2).permute(1, 0).contiguous()
+    try:
+        swin.load_state_dict(state_dict, strict=False)
+    except Exception as err:
+        print(err)
+    try:
+        swin.load_state_dict(state_dict, strict=True)
+    except Exception as err:
+        print(err)
diff --git a/tests/test_backbones/test_twins.py b/tests/test_backbones/test_twins.py
@@ -0,0 +1,42 @@
+'''
+Function:
+    Implementation of Testing Twins
+Author:
+    Zhenchao Jin
+'''
+from ssseg.modules import BuildBackbone, loadpretrainedweights
+from ssseg.modules.models.backbones.twins import DEFAULT_MODEL_URLS
+
+
+'''Twins'''
+cfgs = [
+{'type': 'PCPVT', 'structure_type': 'pcpvt_base', 'pretrained': True, 'selected_indices': (0, 1, 2, 3),
+ 'norm_cfg': {'type': 'LayerNorm'}, 'depths': [3, 4, 18, 3], 'drop_path_rate': 0.3,},
+{'type': 'PCPVT', 'structure_type': 'pcpvt_large', 'pretrained': True, 'selected_indices': (0, 1, 2, 3), 
+ 'norm_cfg': {'type': 'LayerNorm'}, 'depths': [3, 8, 27, 3], 'drop_path_rate': 0.3,},
+{'type': 'PCPVT', 'structure_type': 'pcpvt_small', 'pretrained': True, 'selected_indices': (0, 1, 2, 3), 
+ 'norm_cfg': {'type': 'LayerNorm'}, 'depths': [3, 4, 6, 3], 'drop_path_rate': 0.2,},
+{'type': 'SVT', 'structure_type': 'svt_base', 'pretrained': True, 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'embed_dims': [96, 192, 384, 768], 'num_heads': [3, 6, 12, 24], 'mlp_ratios': [4, 4, 4, 4], 'depths': [2, 2, 18, 2], 
+ 'windiow_sizes': [7, 7, 7, 7], 'norm_after_stage': True, 'drop_path_rate': 0.2},
+{'type': 'SVT', 'structure_type': 'svt_large', 'pretrained': True, 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'embed_dims': [128, 256, 512, 1024], 'num_heads': [4, 8, 16, 32], 'mlp_ratios': [4, 4, 4, 4], 'depths': [2, 2, 18, 2], 
+ 'windiow_sizes': [7, 7, 7, 7], 'norm_after_stage': True, 'drop_path_rate': 0.3},
+{'type': 'SVT', 'structure_type': 'svt_small', 'pretrained': True, 'selected_indices': (0, 1, 2, 3), 'norm_cfg': {'type': 'LayerNorm'},
+ 'embed_dims': [64, 128, 256, 512], 'num_heads': [2, 4, 8, 16], 'mlp_ratios': [4, 4, 4, 4], 'depths': [2, 2, 10, 4], 
+ 'windiow_sizes': [7, 7, 7, 7], 'norm_after_stage': True, 'drop_path_rate': 0.2},
+]
+for cfg in cfgs:
+    twins = BuildBackbone(backbone_cfg=cfg)
+    state_dict = loadpretrainedweights(
+        structure_type=cfg['structure_type'], pretrained_model_path='', default_model_urls=DEFAULT_MODEL_URLS
+    )
+    state_dict = twins.twinsconvert(cfg['structure_type'], state_dict)
+    try:
+        twins.load_state_dict(state_dict, strict=False)
+    except Exception as err:
+        print(err)
+    try:
+        twins.load_state_dict(state_dict, strict=True)
+    except Exception as err:
+        print(err)
diff --git a/tests/test_backbones/test_vit.py b/tests/test_backbones/test_vit.py
@@ -0,0 +1,38 @@
+'''
+Function:
+    Implementation of Testing ViT
+Author:
+    Zhenchao Jin
+'''
+import math
+from ssseg.modules import BuildBackbone, loadpretrainedweights
+from ssseg.modules.models.backbones.vit import DEFAULT_MODEL_URLS
+
+
+'''ViTs'''
+cfgs = [
+{'type': 'VisionTransformer', 'structure_type': 'jx_vit_large_p16_384', 'img_size': (512, 512), 'out_indices': (9, 14, 19, 23),
+ 'norm_cfg': {'type': 'LayerNorm', 'eps': 1e-6}, 'pretrained': True, 'selected_indices': (0, 1, 2, 3),
+ 'patch_size': 16, 'embed_dims': 1024, 'num_layers': 24, 'num_heads': 16, 'mlp_ratio': 4,
+ 'qkv_bias': True, 'drop_rate': 0.1, 'attn_drop_rate': 0., 'drop_path_rate': 0., 'with_cls_token': True,
+ 'output_cls_token': False, 'patch_norm': False, 'final_norm': False, 'num_fcs': 2,}
+]
+for cfg in cfgs:
+    vit = BuildBackbone(backbone_cfg=cfg)
+    state_dict = loadpretrainedweights(
+        structure_type=cfg['structure_type'], pretrained_model_path='', default_model_urls=DEFAULT_MODEL_URLS
+    )
+    state_dict = vit.vitconvert(state_dict)
+    if 'pos_embed' in state_dict.keys():
+        if vit.pos_embed.shape != state_dict['pos_embed'].shape:
+            h, w = vit.img_size
+            pos_size = int(math.sqrt(state_dict['pos_embed'].shape[1] - 1))
+            state_dict['pos_embed'] = vit.resizeposembed(state_dict['pos_embed'], (h // vit.patch_size, w // vit.patch_size), (pos_size, pos_size), vit.interpolate_mode)
+    try:
+        vit.load_state_dict(state_dict, strict=False)
+    except Exception as err:
+        print(err)
+    try:
+        vit.load_state_dict(state_dict, strict=True)
+    except Exception as err:
+        print(err)