Sets is_gptq_calibrated flag when deserializing GPTQ models (#21748)

JyotinderSingh · web-flow · commit e2be4defc1aa · 2025-10-16T17:19:46.000-07:00
* Sets is_gptq_calibrated flag when deserializing GPTQ models

* move flag initialization to load_own_variables

* Added tests
diff --git a/keras/src/layers/core/dense.py b/keras/src/layers/core/dense.py
@@ -288,6 +288,10 @@ def load_own_variables(self, store):
         if mode not in self.variable_serialization_spec:
             raise self._quantization_mode_error(mode)
 
+        if mode == "gptq":
+            # A saved quantized model will always be calibrated.
+            self.is_gptq_calibrated = True
+
         idx = 0
         for name in self.variable_serialization_spec[mode]:
             if name == "kernel":
diff --git a/keras/src/layers/core/dense_test.py b/keras/src/layers/core/dense_test.py
@@ -914,6 +914,7 @@ def test_legacy_load_own_variables(self):
         layer = layers.Dense(units=16, dtype="gptq/4/8_from_float32")
         layer.build((None, 8))
         layer.load_own_variables(gptq_store)
+        self.assertTrue(layer.is_gptq_calibrated)
         self.assertAllClose(layer.bias, gptq_store["0"])
         self.assertAllClose(layer.quantized_kernel, gptq_store["1"])
         self.assertAllClose(layer.kernel_scale, gptq_store["2"])
diff --git a/keras/src/layers/core/einsum_dense.py b/keras/src/layers/core/einsum_dense.py
@@ -356,6 +356,10 @@ def load_own_variables(self, store):
         if mode not in self.variable_serialization_spec:
             raise self._quantization_mode_error(mode)
 
+        if mode == "gptq":
+            # A saved quantized model will always be calibrated.
+            self.is_gptq_calibrated = True
+
         idx = 0
         for name in self.variable_serialization_spec[mode]:
             if name == "kernel":
diff --git a/keras/src/layers/core/einsum_dense_test.py b/keras/src/layers/core/einsum_dense_test.py
@@ -1131,6 +1131,7 @@ def test_legacy_load_own_variables(self):
         layer = layers.EinsumDense(**config, dtype="gptq/4/8_from_float32")
         layer.build((None, 3))
         layer.load_own_variables(gptq_store)
+        self.assertTrue(layer.is_gptq_calibrated)
         self.assertAllClose(layer.bias, gptq_store["0"])
         self.assertAllClose(layer.quantized_kernel, gptq_store["1"])
         self.assertAllClose(layer.kernel_scale, gptq_store["2"])