vllm/vllm/platforms/cpu.py

from typing import TYPE_CHECKING, Optional

import psutil
import torch

from vllm.logger import init_logger

from .interface import Platform, PlatformEnum, _Backend

logger = init_logger(__name__)

if TYPE_CHECKING:
    from vllm.config import VllmConfig
else:
    VllmConfig = None

logger = init_logger(__name__)


class CpuPlatform(Platform):
    _enum = PlatformEnum.CPU
    device_name: str = "cpu"
    device_type: str = "cpu"
    dispatch_key: str = "CPU"

    @classmethod
    def get_device_name(cls, device_id: int = 0) -> str:
        return "cpu"

    @classmethod
    def get_default_attn_backend(cls, selected_backend: _Backend) -> _Backend:
        if selected_backend != _Backend.TORCH_SDPA:
            logger.info("Cannot use %s backend on CPU.", selected_backend)
        return _Backend.TORCH_SDPA

    @classmethod
    def get_device_total_memory(cls, device_id: int = 0) -> int:
        return psutil.virtual_memory().total

    @classmethod
    def is_async_output_supported(cls, enforce_eager: Optional[bool]) -> bool:
        return False

    @classmethod
    def inference_mode(cls):
        return torch.no_grad()

    @classmethod
    def check_and_update_config(cls, vllm_config: VllmConfig) -> None:
        import vllm.envs as envs
        from vllm.utils import GiB_bytes
        model_config = vllm_config.model_config
        # Reminder: Please update docs/source/usage/compatibility_matrix.rst
        # If the feature combo become valid
        if not model_config.enforce_eager:
            logger.warning(
                "CUDA graph is not supported on CPU, fallback to the eager "
                "mode.")
            model_config.enforce_eager = True

        cache_config = vllm_config.cache_config

        kv_cache_space = envs.VLLM_CPU_KVCACHE_SPACE

        if kv_cache_space >= 0:
            if kv_cache_space == 0:
                cache_config.cpu_kvcache_space_bytes = 4 * GiB_bytes  # type: ignore
                logger.warning(
                    "Environment variable VLLM_CPU_KVCACHE_SPACE (GB) "
                    "for CPU backend is not set, using 4 by default.")
            else:
                cache_config.cpu_kvcache_space_bytes = kv_cache_space * GiB_bytes  # type: ignore # noqa
        else:
            raise RuntimeError(
                "Invalid environment variable VLLM_CPU_KVCACHE_SPACE"
                f" {kv_cache_space}, expect a positive integer value.")

        scheduler_config = vllm_config.scheduler_config
        if ((scheduler_config.chunked_prefill_enabled
             or cache_config.enable_prefix_caching)
                and model_config.dtype == torch.half):
            logger.warning("Chunked-prefill on the CPU backend only does not"
                           " support fp16 for now, cast to bf16.")
            model_config.dtype = torch.bfloat16

        parallel_config = vllm_config.parallel_config
        if (parallel_config.distributed_executor_backend is not None
                and parallel_config.distributed_executor_backend != "mp"):
            logger.warning(("%s is not supported on CPU, fallback to mp "
                            "distributed executor backend."),
                           parallel_config.distributed_executor_backend)
            parallel_config.distributed_executor_backend = "mp"
        if parallel_config.worker_cls == "auto":
            if vllm_config.speculative_config:
                parallel_config.worker_cls = \
                    "vllm.spec_decode.spec_decode_worker.create_spec_worker"
                parallel_config.sd_worker_cls = \
                    "vllm.worker.cpu_worker.CPUWorker"
            else:
                parallel_config.worker_cls = "vllm.worker.cpu_worker.CPUWorker"
[Platform] Move `async output` check to platform (#10768) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> 2024-12-10 01:24:46 +08:00			`from typing import TYPE_CHECKING, Optional`
[platforms] refactor cpu code (#10402) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-16 23:14:23 -08:00
[CI/Build] Add test decorator for minimum GPU memory (#8925) 2024-09-29 10:50:51 +08:00			`import psutil`
[Hardware][Intel] Support compressed-tensor W8A8 for CPU backend (#7257) 2024-09-12 00:46:46 +08:00			`import torch`

[platforms] refactor cpu code (#10402) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-16 23:14:23 -08:00			`from vllm.logger import init_logger`

[Platform][Refactor] Extract func `get_default_attn_backend` to `Platform` (#10358) Signed-off-by: Mengqing Cao <cmq0113@163.com> 2024-11-19 11:22:26 +08:00			`from .interface import Platform, PlatformEnum, _Backend`

			`logger = init_logger(__name__)`
[Hardware][Intel] Support compressed-tensor W8A8 for CPU backend (#7257) 2024-09-12 00:46:46 +08:00
[platforms] refactor cpu code (#10402) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-16 23:14:23 -08:00			`if TYPE_CHECKING:`
			`from vllm.config import VllmConfig`
			`else:`
			`VllmConfig = None`

			`logger = init_logger(__name__)`

[Hardware][Intel] Support compressed-tensor W8A8 for CPU backend (#7257) 2024-09-12 00:46:46 +08:00
			`class CpuPlatform(Platform):`
			`_enum = PlatformEnum.CPU`
[platform] Add verify_quantization in platform. (#10757) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> 2024-11-29 23:22:21 +08:00			`device_name: str = "cpu"`
[Platforms] Add `device_type` in `Platform` (#10508) Signed-off-by: MengqingCao <cmq0113@163.com> 2024-11-21 12:44:20 +08:00			`device_type: str = "cpu"`
[torch.compile] support all attention backends (#10558) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-22 14:04:42 -08:00			`dispatch_key: str = "CPU"`
[Hardware][Intel] Support compressed-tensor W8A8 for CPU backend (#7257) 2024-09-12 00:46:46 +08:00
[CI/Build] Avoid CUDA initialization (#8534) 2024-09-18 18:38:11 +08:00			`@classmethod`
			`def get_device_name(cls, device_id: int = 0) -> str:`
[Hardware][Intel] Support compressed-tensor W8A8 for CPU backend (#7257) 2024-09-12 00:46:46 +08:00			`return "cpu"`

[Platform][Refactor] Extract func `get_default_attn_backend` to `Platform` (#10358) Signed-off-by: Mengqing Cao <cmq0113@163.com> 2024-11-19 11:22:26 +08:00			`@classmethod`
			`def get_default_attn_backend(cls, selected_backend: _Backend) -> _Backend:`
			`if selected_backend != _Backend.TORCH_SDPA:`
			`logger.info("Cannot use %s backend on CPU.", selected_backend)`
			`return _Backend.TORCH_SDPA`

[CI/Build] Add test decorator for minimum GPU memory (#8925) 2024-09-29 10:50:51 +08:00			`@classmethod`
			`def get_device_total_memory(cls, device_id: int = 0) -> int:`
			`return psutil.virtual_memory().total`

[Platform] Move `async output` check to platform (#10768) Signed-off-by: wangxiyuan <wangxiyuan1007@gmail.com> 2024-12-10 01:24:46 +08:00			`@classmethod`
			`def is_async_output_supported(cls, enforce_eager: Optional[bool]) -> bool:`
			`return False`

[CI/Build] Avoid CUDA initialization (#8534) 2024-09-18 18:38:11 +08:00			`@classmethod`
			`def inference_mode(cls):`
[Hardware][Intel] Support compressed-tensor W8A8 for CPU backend (#7257) 2024-09-12 00:46:46 +08:00			`return torch.no_grad()`
[platforms] refactor cpu code (#10402) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-16 23:14:23 -08:00
			`@classmethod`
			`def check_and_update_config(cls, vllm_config: VllmConfig) -> None:`
			`import vllm.envs as envs`
			`from vllm.utils import GiB_bytes`
			`model_config = vllm_config.model_config`
[Doc] Create a new "Usage" section (#10827) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-12-05 11:19:35 +08:00			`# Reminder: Please update docs/source/usage/compatibility_matrix.rst`
[platforms] refactor cpu code (#10402) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-16 23:14:23 -08:00			`# If the feature combo become valid`
			`if not model_config.enforce_eager:`
			`logger.warning(`
			`"CUDA graph is not supported on CPU, fallback to the eager "`
			`"mode.")`
			`model_config.enforce_eager = True`

			`cache_config = vllm_config.cache_config`

			`kv_cache_space = envs.VLLM_CPU_KVCACHE_SPACE`

			`if kv_cache_space >= 0:`
			`if kv_cache_space == 0:`
			`cache_config.cpu_kvcache_space_bytes = 4 * GiB_bytes # type: ignore`
			`logger.warning(`
			`"Environment variable VLLM_CPU_KVCACHE_SPACE (GB) "`
			`"for CPU backend is not set, using 4 by default.")`
			`else:`
			`cache_config.cpu_kvcache_space_bytes = kv_cache_space * GiB_bytes # type: ignore # noqa`
			`else:`
			`raise RuntimeError(`
			`"Invalid environment variable VLLM_CPU_KVCACHE_SPACE"`
			`f" {kv_cache_space}, expect a positive integer value.")`

			`scheduler_config = vllm_config.scheduler_config`
[Hardware][CPU] Support chunked-prefill and prefix-caching on CPU (#10355) Signed-off-by: jiang1.li <jiang1.li@intel.com> 2024-11-20 18:57:39 +08:00			`if ((scheduler_config.chunked_prefill_enabled`
			`or cache_config.enable_prefix_caching)`
			`and model_config.dtype == torch.half):`
			`logger.warning("Chunked-prefill on the CPU backend only does not"`
			`" support fp16 for now, cast to bf16.")`
			`model_config.dtype = torch.bfloat16`
[platforms] refactor cpu code (#10402) Signed-off-by: youkaichao <youkaichao@gmail.com> 2024-11-16 23:14:23 -08:00
			`parallel_config = vllm_config.parallel_config`
			`if (parallel_config.distributed_executor_backend is not None`
			`and parallel_config.distributed_executor_backend != "mp"):`
			`logger.warning(("%s is not supported on CPU, fallback to mp "`
			`"distributed executor backend."),`
			`parallel_config.distributed_executor_backend)`
			`parallel_config.distributed_executor_backend = "mp"`
[platforms] absorb worker cls difference into platforms folder (#10555) Signed-off-by: youkaichao <youkaichao@gmail.com> Co-authored-by: Nick Hill <nhill@redhat.com> 2024-11-21 21:00:32 -08:00			`if parallel_config.worker_cls == "auto":`
Remove hard-dependencies of Speculative decode to CUDA workers (#10587) Signed-off-by: Chendi Xue <chendi.xue@intel.com> 2024-11-26 19:57:11 -06:00			`if vllm_config.speculative_config:`
			`parallel_config.worker_cls = \`
			`"vllm.spec_decode.spec_decode_worker.create_spec_worker"`
			`parallel_config.sd_worker_cls = \`
			`"vllm.worker.cpu_worker.CPUWorker"`
			`else:`
			`parallel_config.worker_cls = "vllm.worker.cpu_worker.CPUWorker"`