fix tests

Signed-off-by: yewentao256 <zhyanwentao@126.com>
fix layer
--- a/tests/kernels/moe/modular_kernel_tools/common.py
+++ b/tests/kernels/moe/modular_kernel_tools/common.py
@@ -594,7 +594,9 @@ def make_modular_kernel(
    )

    modular_kernel = mk.FusedMoEModularKernel(
        prepare_finalize=prepare_finalize, fused_experts=fused_experts
        prepare_finalize=prepare_finalize,
        fused_experts=fused_experts,
        moe_parallel_config=moe_parallel_config,
    )

    return modular_kernel
--- a/vllm/model_executor/layers/fused_moe/fused_moe_modular_method.py
+++ b/vllm/model_executor/layers/fused_moe/fused_moe_modular_method.py
@@ -43,7 +43,6 @@ class FusedMoEModularMethod(FusedMoEMethodBase, CustomOp):
        prepare_finalize: FusedMoEPrepareAndFinalize,
        shared_experts: torch.nn.Module | None,
    ) -> "FusedMoEModularMethod":
        moe_parallel_config = getattr(moe_layer, "moe_parallel_config", None)
        return FusedMoEModularMethod(
            old_quant_method,
            FusedMoEModularKernel(
@@ -51,7 +50,7 @@ class FusedMoEModularMethod(FusedMoEMethodBase, CustomOp):
                old_quant_method.select_gemm_impl(prepare_finalize, moe_layer),
                shared_experts,
                getattr(moe_layer, "shared_experts_stream", None),
                moe_parallel_config=moe_parallel_config,
                moe_parallel_config=moe_layer.moe_parallel_config,
            ),
        )

--- a/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
+++ b/vllm/model_executor/layers/fused_moe/unquantized_fused_moe_method.py
@@ -334,7 +334,7 @@ class UnquantizedFusedMoEMethod(FusedMoEMethodBase, CustomOp):
                apply_router_weight_on_input=layer.apply_router_weight_on_input,
                global_num_experts=layer.global_num_experts,
                expert_map=layer.expert_map,
                moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                moe_parallel_config=layer.moe_parallel_config,
            )

        if layer.zero_expert_num != 0 and layer.zero_expert_type is not None:
--- a/vllm/model_executor/layers/quantization/bitsandbytes.py
+++ b/vllm/model_executor/layers/quantization/bitsandbytes.py
@@ -521,7 +521,7 @@ class BitsAndBytesMoEMethod(FusedMoEMethodBase):
            global_num_experts=layer.global_num_experts,
            expert_map=layer.expert_map,
            quant_config=self.moe_quant_config,
            moe_parallel_config=getattr(layer, "moe_parallel_config", None),
            moe_parallel_config=layer.moe_parallel_config,
        )

    def _create_weights_4bit(
--- a/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
+++ b/vllm/model_executor/layers/quantization/compressed_tensors/compressed_tensors_moe.py
@@ -1244,7 +1244,7 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                    if self.disable_expert_map
                    else layer.expert_map,  # ???
                    quant_config=self.moe_quant_config,
                    moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                    moe_parallel_config=layer.moe_parallel_config,
                )
            else:
                from vllm.model_executor.layers.fused_moe.cutlass_moe import (
@@ -1267,7 +1267,7 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                    ab_strides2=self.ab_strides2,
                    c_strides1=self.c_strides1,
                    c_strides2=self.ab_strides1_c_strides2,
                    moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                    moe_parallel_config=layer.moe_parallel_config,
                )

        else:
@@ -1287,7 +1287,7 @@ class CompressedTensorsW8A8Fp8MoEMethod(CompressedTensorsMoEMethod):
                global_num_experts=layer.global_num_experts,
                expert_map=layer.expert_map,
                quant_config=self.moe_quant_config,
                moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                moe_parallel_config=layer.moe_parallel_config,
            )

    @property
@@ -1426,7 +1426,7 @@ class CompressedTensorsW8A8Int8MoEMethod(CompressedTensorsMoEMethod):
            global_num_experts=layer.global_num_experts,
            expert_map=layer.expert_map,
            quant_config=self.moe_quant_config,
            moe_parallel_config=getattr(layer, "moe_parallel_config", None),
            moe_parallel_config=layer.moe_parallel_config,
        )


@@ -2015,7 +2015,7 @@ class CompressedTensorsWNA16MoEMethod(CompressedTensorsMoEMethod):
            global_num_experts=layer.global_num_experts,
            expert_map=layer.expert_map,
            quant_config=self.moe_quant_config,
            moe_parallel_config=getattr(layer, "moe_parallel_config", None),
            moe_parallel_config=layer.moe_parallel_config,
        )

    @property
--- a/vllm/model_executor/layers/quantization/experts_int8.py
+++ b/vllm/model_executor/layers/quantization/experts_int8.py
@@ -159,7 +159,7 @@ class ExpertsInt8MoEMethod(FusedMoEMethodBase):
            global_num_experts=layer.global_num_experts,
            expert_map=layer.expert_map,
            quant_config=self.moe_quant_config,
            moe_parallel_config=getattr(layer, "moe_parallel_config", None),
            moe_parallel_config=layer.moe_parallel_config,
        )

    @staticmethod
--- a/vllm/model_executor/layers/quantization/fp8.py
+++ b/vllm/model_executor/layers/quantization/fp8.py
@@ -1376,7 +1376,7 @@ class Fp8MoEMethod(FusedMoEMethodBase):
                allow_cutlass_block_scaled_grouped_gemm=(
                    self.allow_cutlass_block_scaled_grouped_gemm
                ),
                moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                moe_parallel_config=layer.moe_parallel_config,
            )

        if layer.zero_expert_num != 0 and layer.zero_expert_type is not None:
--- a/vllm/model_executor/layers/quantization/modelopt.py
+++ b/vllm/model_executor/layers/quantization/modelopt.py
@@ -768,7 +768,7 @@ class ModelOptFp8MoEMethod(FusedMoEMethodBase):
                global_num_experts=layer.global_num_experts,
                expert_map=layer.expert_map,
                apply_router_weight_on_input=layer.apply_router_weight_on_input,
                moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                moe_parallel_config=layer.moe_parallel_config,
            )


--- a/vllm/model_executor/layers/quantization/moe_wna16.py
+++ b/vllm/model_executor/layers/quantization/moe_wna16.py
@@ -381,7 +381,7 @@ class MoeWNA16Method(FusedMoEMethodBase):
            global_num_experts=layer.global_num_experts,
            expert_map=layer.expert_map,
            quant_config=self.moe_quant_config,
            moe_parallel_config=getattr(layer, "moe_parallel_config", None),
            moe_parallel_config=layer.moe_parallel_config,
        )

    @staticmethod
--- a/vllm/model_executor/layers/quantization/quark/quark_moe.py
+++ b/vllm/model_executor/layers/quantization/quark/quark_moe.py
@@ -393,7 +393,7 @@ class QuarkW8A8Fp8MoEMethod(QuarkMoEMethod):
                global_num_experts=layer.global_num_experts,
                expert_map=layer.expert_map,
                quant_config=self.moe_quant_config,
                moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                moe_parallel_config=layer.moe_parallel_config,
            )


@@ -618,7 +618,7 @@ class QuarkOCP_MX_MoEMethod(QuarkMoEMethod):
                apply_router_weight_on_input=layer.apply_router_weight_on_input,
                expert_map=layer.expert_map,
                quant_config=self.moe_quant_config,
                moe_parallel_config=getattr(layer, "moe_parallel_config", None),
                moe_parallel_config=layer.moe_parallel_config,
            )

        return out
--- a/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
+++ b/vllm/model_executor/layers/quantization/utils/flashinfer_utils.py
@@ -247,11 +247,6 @@ def flashinfer_cutlass_moe_fp8(
    assert quant_config is not None

    # Construct modular kernel with block-scale support when requested.
    moe_parallel_config = getattr(
        moe if moe is not None else layer,
        "moe_parallel_config",
        None,
    )
    fused_experts = mk.FusedMoEModularKernel(
        build_flashinfer_fp8_cutlass_moe_prepare_finalize(
            moe=moe, use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale
@@ -262,7 +257,7 @@ def flashinfer_cutlass_moe_fp8(
            out_dtype=hidden_states.dtype,
            use_deepseek_fp8_block_scale=use_deepseek_fp8_block_scale,
        ),
        moe_parallel_config=moe_parallel_config,
        moe_parallel_config=layer.moe_parallel_config,
    )

    return fused_experts(
Author	SHA1	Message	Date
yewentao256	60906cddc0	fix tests Signed-off-by: yewentao256 <zhyanwentao@126.com>	4 days ago
yewentao256	6c9552b4a6	fix layer Signed-off-by: yewentao256 <zhyanwentao@126.com>	4 days ago