vllm/tests/lora/test_worker.py

import os
import random
import tempfile
from unittest.mock import patch

from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,
                         ParallelConfig, SchedulerConfig)
from vllm.lora.models import LoRAMapping
from vllm.lora.request import LoRARequest
from vllm.worker.worker import Worker


@patch.dict(os.environ, {"RANK": "0"})
def test_worker_apply_lora(sql_lora_files):
    worker = Worker(
        model_config=ModelConfig(
            "meta-llama/Llama-2-7b-hf",
            "meta-llama/Llama-2-7b-hf",
            tokenizer_mode="auto",
            trust_remote_code=False,
            download_dir=None,
            load_format="dummy",
            seed=0,
            dtype="float16",
            revision=None,
        ),
        parallel_config=ParallelConfig(1, 1, False),
        scheduler_config=SchedulerConfig(32, 32, 32),
        device_config=DeviceConfig("cuda"),
        cache_config=CacheConfig(block_size=16,
                                 gpu_memory_utilization=1.,
                                 swap_space=0,
                                 cache_dtype="auto"),
        local_rank=0,
        rank=0,
        lora_config=LoRAConfig(max_lora_rank=8, max_cpu_loras=32,
                               max_loras=32),
        distributed_init_method=f"file://{tempfile.mkstemp()[1]}",
    )
    worker.init_device()
    worker.load_model()

    worker.model_runner.set_active_loras([], LoRAMapping([], []))
    assert worker.list_loras() == set()

    n_loras = 32
    lora_requests = [
        LoRARequest(str(i + 1), i + 1, sql_lora_files) for i in range(n_loras)
    ]

    worker.model_runner.set_active_loras(lora_requests, LoRAMapping([], []))
    assert worker.list_loras() == {
        lora_request.lora_int_id
        for lora_request in lora_requests
    }

    for i in range(32):
        random.seed(i)
        iter_lora_requests = random.choices(lora_requests,
                                            k=random.randint(1, n_loras))
        random.shuffle(iter_lora_requests)
        iter_lora_requests = iter_lora_requests[:-random.randint(0, n_loras)]
        worker.model_runner.set_active_loras(iter_lora_requests,
                                             LoRAMapping([], []))
        assert worker.list_loras().issuperset(
            {lora_request.lora_int_id
             for lora_request in iter_lora_requests})
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`import os`
			`import random`
			`import tempfile`
			`from unittest.mock import patch`

[Misc] [Core] Implement RFC "Augment BaseExecutor interfaces to enable hardware-agnostic speculative decoding" (#3837) 2024-04-09 11:44:15 -07:00			`from vllm.config import (CacheConfig, DeviceConfig, LoRAConfig, ModelConfig,`
			`ParallelConfig, SchedulerConfig)`
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`from vllm.lora.models import LoRAMapping`
			`from vllm.lora.request import LoRARequest`
			`from vllm.worker.worker import Worker`


			`@patch.dict(os.environ, {"RANK": "0"})`
			`def test_worker_apply_lora(sql_lora_files):`
			`worker = Worker(`
			`model_config=ModelConfig(`
			`"meta-llama/Llama-2-7b-hf",`
			`"meta-llama/Llama-2-7b-hf",`
			`tokenizer_mode="auto",`
			`trust_remote_code=False,`
			`download_dir=None,`
			`load_format="dummy",`
			`seed=0,`
			`dtype="float16",`
			`revision=None,`
			`),`
			`parallel_config=ParallelConfig(1, 1, False),`
[1/n][Chunked Prefill] Refactor input query shapes (#3236) 2024-03-21 06:46:05 +09:00			`scheduler_config=SchedulerConfig(32, 32, 32),`
Remove hardcoded `device="cuda" ` to support more devices (#2503) Co-authored-by: Jiang Li <jiang1.li@intel.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com> 2024-02-02 07:46:39 +08:00			`device_config=DeviceConfig("cuda"),`
[Misc] [Core] Implement RFC "Augment BaseExecutor interfaces to enable hardware-agnostic speculative decoding" (#3837) 2024-04-09 11:44:15 -07:00			`cache_config=CacheConfig(block_size=16,`
			`gpu_memory_utilization=1.,`
			`swap_space=0,`
			`cache_dtype="auto"),`
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`local_rank=0,`
			`rank=0,`
			`lora_config=LoRAConfig(max_lora_rank=8, max_cpu_loras=32,`
			`max_loras=32),`
			`distributed_init_method=f"file://{tempfile.mkstemp()[1]}",`
			`)`
[Hardware][Neuron] Refactor neuron support (#3471) 2024-03-21 18:22:17 -07:00			`worker.init_device()`
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`worker.load_model()`

			`worker.model_runner.set_active_loras([], LoRAMapping([], []))`
			`assert worker.list_loras() == set()`

			`n_loras = 32`
			`lora_requests = [`
			`LoRARequest(str(i + 1), i + 1, sql_lora_files) for i in range(n_loras)`
			`]`

			`worker.model_runner.set_active_loras(lora_requests, LoRAMapping([], []))`
			`assert worker.list_loras() == {`
			`lora_request.lora_int_id`
			`for lora_request in lora_requests`
			`}`

			`for i in range(32):`
			`random.seed(i)`
			`iter_lora_requests = random.choices(lora_requests,`
			`k=random.randint(1, n_loras))`
			`random.shuffle(iter_lora_requests)`
			`iter_lora_requests = iter_lora_requests[:-random.randint(0, n_loras)]`
			`worker.model_runner.set_active_loras(iter_lora_requests,`
			`LoRAMapping([], []))`
			`assert worker.list_loras().issuperset(`
			`{lora_request.lora_int_id`
			`for lora_request in iter_lora_requests})`