Add group_matcher to focalnet for proper layer-wise LR decay

rwightman · rwightman · commit 33ada0cbca3a · 2023-03-23T23:21:49.000-07:00
diff --git a/timm/models/focalnet.py b/timm/models/focalnet.py
@@ -436,6 +436,20 @@ def __init__(
     def no_weight_decay(self):
         return {''}
 
+    @torch.jit.ignore
+    def group_matcher(self, coarse=False):
+        return dict(
+            stem=r'^stem',
+            blocks=[
+                (r'^layers\.(\d+)', None),
+                (r'^norm', (99999,))
+            ] if coarse else [
+                (r'^layers\.(\d+).downsample', (0,)),
+                (r'^layers\.(\d+)\.\w+\.(\d+)', None),
+                (r'^norm', (99999,)),
+            ]
+        )
+
     @torch.jit.ignore
     def set_grad_checkpointing(self, enable=True):
         self.grad_checkpointing = enable