vllm/tests/lora/test_worker.py

import os
import random
import tempfile
from unittest.mock import patch

from vllm.config import (DeviceConfig, LoRAConfig, ModelConfig, ParallelConfig,
                         SchedulerConfig)
from vllm.lora.models import LoRAMapping
from vllm.lora.request import LoRARequest
from vllm.worker.worker import Worker


@patch.dict(os.environ, {"RANK": "0"})
def test_worker_apply_lora(sql_lora_files):
    worker = Worker(
        model_config=ModelConfig(
            "meta-llama/Llama-2-7b-hf",
            "meta-llama/Llama-2-7b-hf",
            tokenizer_mode="auto",
            trust_remote_code=False,
            download_dir=None,
            load_format="dummy",
            seed=0,
            dtype="float16",
            revision=None,
        ),
        parallel_config=ParallelConfig(1, 1, False),
        scheduler_config=SchedulerConfig(32, 32, 32),
        device_config=DeviceConfig("cuda"),
        local_rank=0,
        rank=0,
        lora_config=LoRAConfig(max_lora_rank=8, max_cpu_loras=32,
                               max_loras=32),
        distributed_init_method=f"file://{tempfile.mkstemp()[1]}",
    )
    worker.init_device()
    worker.load_model()

    worker.model_runner.set_active_loras([], LoRAMapping([], []))
    assert worker.list_loras() == set()

    n_loras = 32
    lora_requests = [
        LoRARequest(str(i + 1), i + 1, sql_lora_files) for i in range(n_loras)
    ]

    worker.model_runner.set_active_loras(lora_requests, LoRAMapping([], []))
    assert worker.list_loras() == {
        lora_request.lora_int_id
        for lora_request in lora_requests
    }

    for i in range(32):
        random.seed(i)
        iter_lora_requests = random.choices(lora_requests,
                                            k=random.randint(1, n_loras))
        random.shuffle(iter_lora_requests)
        iter_lora_requests = iter_lora_requests[:-random.randint(0, n_loras)]
        worker.model_runner.set_active_loras(iter_lora_requests,
                                             LoRAMapping([], []))
        assert worker.list_loras().issuperset(
            {lora_request.lora_int_id
             for lora_request in iter_lora_requests})
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`import os`
			`import random`
			`import tempfile`
			`from unittest.mock import patch`

[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from vllm.config import (DeviceConfig, LoRAConfig, ModelConfig, ParallelConfig,`
			`SchedulerConfig)`
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`from vllm.lora.models import LoRAMapping`
			`from vllm.lora.request import LoRARequest`
			`from vllm.worker.worker import Worker`


			`@patch.dict(os.environ, {"RANK": "0"})`
			`def test_worker_apply_lora(sql_lora_files):`
			`worker = Worker(`
			`model_config=ModelConfig(`
			`"meta-llama/Llama-2-7b-hf",`
			`"meta-llama/Llama-2-7b-hf",`
			`tokenizer_mode="auto",`
			`trust_remote_code=False,`
			`download_dir=None,`
			`load_format="dummy",`
			`seed=0,`
			`dtype="float16",`
			`revision=None,`
			`),`
			`parallel_config=ParallelConfig(1, 1, False),`
[1/n][Chunked Prefill] Refactor input query shapes (#3236) 2024-03-21 06:46:05 +09:00			`scheduler_config=SchedulerConfig(32, 32, 32),`
Remove hardcoded `device="cuda" ` to support more devices (#2503) Co-authored-by: Jiang Li <jiang1.li@intel.com> Co-authored-by: Kunshang Ji <kunshang.ji@intel.com> 2024-02-02 07:46:39 +08:00			`device_config=DeviceConfig("cuda"),`
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`local_rank=0,`
			`rank=0,`
			`lora_config=LoRAConfig(max_lora_rank=8, max_cpu_loras=32,`
			`max_loras=32),`
			`distributed_init_method=f"file://{tempfile.mkstemp()[1]}",`
			`)`
[Hardware][Neuron] Refactor neuron support (#3471) 2024-03-21 18:22:17 -07:00			`worker.init_device()`
[Experimental] Add multi-LoRA support (#1804) Co-authored-by: Chen Shen <scv119@gmail.com> Co-authored-by: Shreyas Krishnaswamy <shrekris@anyscale.com> Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-01-24 00:26:37 +01:00			`worker.load_model()`

			`worker.model_runner.set_active_loras([], LoRAMapping([], []))`
			`assert worker.list_loras() == set()`

			`n_loras = 32`
			`lora_requests = [`
			`LoRARequest(str(i + 1), i + 1, sql_lora_files) for i in range(n_loras)`
			`]`

			`worker.model_runner.set_active_loras(lora_requests, LoRAMapping([], []))`
			`assert worker.list_loras() == {`
			`lora_request.lora_int_id`
			`for lora_request in lora_requests`
			`}`

			`for i in range(32):`
			`random.seed(i)`
			`iter_lora_requests = random.choices(lora_requests,`
			`k=random.randint(1, n_loras))`
			`random.shuffle(iter_lora_requests)`
			`iter_lora_requests = iter_lora_requests[:-random.randint(0, n_loras)]`
			`worker.model_runner.set_active_loras(iter_lora_requests,`
			`LoRAMapping([], []))`
			`assert worker.list_loras().issuperset(`
			`{lora_request.lora_int_id`
			`for lora_request in iter_lora_requests})`