Update WOQ AutoRoundConfig parameter (#1568)

changwangss · web-flow · commit 5e5e17c27285 · 2024-05-24T17:46:43.000+08:00
diff --git a/examples/huggingface/pytorch/text-generation/quantization/run_generation_cpu_woq.py b/examples/huggingface/pytorch/text-generation/quantization/run_generation_cpu_woq.py
@@ -154,7 +154,7 @@
     help="minmax learning rate, if None,it will beset to be the same with lr",
 )
 parser.add_argument(
-    "--enable_quanted_input",
+    "--disable_quanted_input",
     action="store_true",
     help="whether to use the output of quantized block to tune the next block",
 )
@@ -286,7 +286,7 @@
             calib_len=args.calib_len,
             lr=args.lr,
             minmax_lr=args.minmax_lr,
-            enable_quanted_input=args.enable_quanted_input,
+            disable_quanted_input=args.disable_quanted_input,
             use_ipex=args.use_ipex,
         )
     else:
diff --git a/intel_extension_for_transformers/transformers/llm/quantization/utils.py b/intel_extension_for_transformers/transformers/llm/quantization/utils.py
@@ -527,7 +527,7 @@ def default_calib_func(model):
                     "seqlen": config.calib_len,
                     "iters": config.iters,
                     "scale_dtype": config.scale_dtype,
-                    "enable_quanted_input": config.enable_quanted_input,
+                    "enable_quanted_input": not config.disable_quanted_input,
                     "lr": config.lr,
                     "minmax_lr": config.minmax_lr,
                 }
diff --git a/intel_extension_for_transformers/transformers/utils/config.py b/intel_extension_for_transformers/transformers/utils/config.py
@@ -1056,7 +1056,7 @@ def __init__(
         sym: bool = False,
         lr: float = None,
         minmax_lr: float = None,
-        enable_quanted_input: bool = True,
+        disable_quanted_input: bool = False,
         nsamples: int = 512,
         iters: int = 200,
         use_ggml: bool = False,
@@ -1083,7 +1083,7 @@ def __init__(
         self.group_size = group_size
         self.lr = lr
         self.minmax_lr = minmax_lr
-        self.enable_quanted_input = enable_quanted_input
+        self.disable_quanted_input = disable_quanted_input
         self.iters = iters
         self.llm_int8_skip_modules = (
             llm_int8_skip_modules if llm_int8_skip_modules else []

Original file line number	Diff line number	Diff line change
`@@ -154,7 +154,7 @@`
`154`	`154`	`help="minmax learning rate, if None,it will beset to be the same with lr",`
`155`	`155`	`)`
`156`	`156`	`parser.add_argument(`
`157`		`- "--enable_quanted_input",`
	`157`	`+ "--disable_quanted_input",`
`158`	`158`	`action="store_true",`
`159`	`159`	`help="whether to use the output of quantized block to tune the next block",`
`160`	`160`	`)`
`@@ -286,7 +286,7 @@`
`286`	`286`	`calib_len=args.calib_len,`
`287`	`287`	`lr=args.lr,`
`288`	`288`	`minmax_lr=args.minmax_lr,`
`289`		`- enable_quanted_input=args.enable_quanted_input,`
	`289`	`+ disable_quanted_input=args.disable_quanted_input,`
`290`	`290`	`use_ipex=args.use_ipex,`
`291`	`291`	`)`
`292`	`292`	`else:`
Original file line number	Diff line number	Diff line change
`@@ -527,7 +527,7 @@ def default_calib_func(model):`
`527`	`527`	`"seqlen": config.calib_len,`
`528`	`528`	`"iters": config.iters,`
`529`	`529`	`"scale_dtype": config.scale_dtype,`
`530`		`- "enable_quanted_input": config.enable_quanted_input,`
	`530`	`+ "enable_quanted_input": not config.disable_quanted_input,`
`531`	`531`	`"lr": config.lr,`
`532`	`532`	`"minmax_lr": config.minmax_lr,`
`533`	`533`	`}`