[ROCm][Bugfix][FP8] Make fp8 quant respect fused modules mapping (#16031)

Signed-off-by: mgoin <michael@neuralmagic.com>
2025-04-07 19:28:14 -06:00 · 2025-04-07 19:28:14 -06:00 · 21802c4b6d
commit 21802c4b6d
parent 652907b354
1 changed files with 3 additions and 1 deletions
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@ -116,7 +116,9 @@ class Fp8Config(QuantizationConfig):
        from vllm.attention.layer import Attention  # Avoid circular import

        if isinstance(layer, LinearBase):
-            if is_layer_skipped(prefix, self.ignored_layers):
+            if is_layer_skipped(prefix=prefix,
+                                ignored_layers=self.ignored_layers,
+                                fused_mapping=self.packed_modules_mapping):
                return UnquantizedLinearMethod()
            return Fp8LinearMethod(self)
        elif isinstance(layer, FusedMoE):