vllm/tests/entrypoints/openai/test_serving_chat.py

import asyncio
from contextlib import suppress
from dataclasses import dataclass
from unittest.mock import MagicMock

from vllm.config import MultiModalConfig
from vllm.engine.multiprocessing.client import MQLLMEngineClient
from vllm.entrypoints.openai.protocol import ChatCompletionRequest
from vllm.entrypoints.openai.serving_chat import OpenAIServingChat
from vllm.entrypoints.openai.serving_engine import BaseModelPath
from vllm.transformers_utils.tokenizer import get_tokenizer

MODEL_NAME = "openai-community/gpt2"
CHAT_TEMPLATE = "Dummy chat template for testing {}"
BASE_MODEL_PATHS = [BaseModelPath(name=MODEL_NAME, model_path=MODEL_NAME)]


@dataclass
class MockHFConfig:
    model_type: str = "any"


@dataclass
class MockModelConfig:
    task = "generate"
    tokenizer = MODEL_NAME
    trust_remote_code = False
    tokenizer_mode = "auto"
    chat_template_text_format = "string"
    max_model_len = 100
    tokenizer_revision = None
    multimodal_config = MultiModalConfig()
    hf_config = MockHFConfig()


@dataclass
class MockEngine:

    async def get_model_config(self):
        return MockModelConfig()


async def _async_serving_chat_init():
    engine = MockEngine()
    model_config = await engine.get_model_config()

    serving_completion = OpenAIServingChat(engine,
                                           model_config,
                                           BASE_MODEL_PATHS,
                                           response_role="assistant",
                                           chat_template=CHAT_TEMPLATE,
                                           lora_modules=None,
                                           prompt_adapters=None,
                                           request_logger=None)
    return serving_completion


def test_async_serving_chat_init():
    serving_completion = asyncio.run(_async_serving_chat_init())
    assert serving_completion.chat_template == CHAT_TEMPLATE


def test_serving_chat_should_set_correct_max_tokens():
    mock_engine = MagicMock(spec=MQLLMEngineClient)
    mock_engine.get_tokenizer.return_value = get_tokenizer(MODEL_NAME)
    mock_engine.errored = False

    serving_chat = OpenAIServingChat(mock_engine,
                                     MockModelConfig(),
                                     BASE_MODEL_PATHS,
                                     response_role="assistant",
                                     chat_template=CHAT_TEMPLATE,
                                     lora_modules=None,
                                     prompt_adapters=None,
                                     request_logger=None)
    req = ChatCompletionRequest(
        model=MODEL_NAME,
        messages=[{
            "role": "user",
            "content": "what is 1+1?"
        }],
        guided_decoding_backend="outlines",
    )

    with suppress(Exception):
        asyncio.run(serving_chat.create_chat_completion(req))

    assert mock_engine.generate.call_args.args[1].max_tokens == 93

    req.max_tokens = 10
    with suppress(Exception):
        asyncio.run(serving_chat.create_chat_completion(req))

    assert mock_engine.generate.call_args.args[1].max_tokens == 10
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`import asyncio`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00			`from contextlib import suppress`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`from dataclasses import dataclass`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00			`from unittest.mock import MagicMock`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00
[Frontend][VLM] Add support for multiple multi-modal items (#8049) 2024-08-31 16:35:53 -07:00			`from vllm.config import MultiModalConfig`
[Core][Bugfix][Perf] Introduce `MQLLMEngine` to avoid `asyncio` OH (#8157) Co-authored-by: Nick Hill <nickhill@us.ibm.com> Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-neuralmagic@users.noreply.github.com> Co-authored-by: Simon Mo <simon.mo@hey.com> 2024-09-18 09:56:58 -04:00			`from vllm.engine.multiprocessing.client import MQLLMEngineClient`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00			`from vllm.entrypoints.openai.protocol import ChatCompletionRequest`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`from vllm.entrypoints.openai.serving_chat import OpenAIServingChat`
[Core] Support Lora lineage and base model metadata management (#6315) 2024-09-19 23:20:56 -07:00			`from vllm.entrypoints.openai.serving_engine import BaseModelPath`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00			`from vllm.transformers_utils.tokenizer import get_tokenizer`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00
			`MODEL_NAME = "openai-community/gpt2"`
			`CHAT_TEMPLATE = "Dummy chat template for testing {}"`
[Core] Support Lora lineage and base model metadata management (#6315) 2024-09-19 23:20:56 -07:00			`BASE_MODEL_PATHS = [BaseModelPath(name=MODEL_NAME, model_path=MODEL_NAME)]`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00

[BugFix] Fix test breakages from transformers 4.45 upgrade (#8829) 2024-09-27 00:46:43 +01:00			`@dataclass`
			`class MockHFConfig:`
			`model_type: str = "any"`


Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`@dataclass`
			`class MockModelConfig:`
[Model] Add user-configurable task for models that support both generation and embedding (#9424) 2024-10-19 02:31:58 +08:00			`task = "generate"`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`tokenizer = MODEL_NAME`
			`trust_remote_code = False`
			`tokenizer_mode = "auto"`
[Bugfix]: Make chat content text allow type content (#9358) Signed-off-by: Vinay Damodaran <vrdn@hey.com> 2024-10-24 01:05:49 -04:00			`chat_template_text_format = "string"`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`max_model_len = 100`
			`tokenizer_revision = None`
[Frontend][VLM] Add support for multiple multi-modal items (#8049) 2024-08-31 16:35:53 -07:00			`multimodal_config = MultiModalConfig()`
[BugFix] Fix test breakages from transformers 4.45 upgrade (#8829) 2024-09-27 00:46:43 +01:00			`hf_config = MockHFConfig()`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00

			`@dataclass`
			`class MockEngine:`

			`async def get_model_config(self):`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00			`return MockModelConfig()`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00

			`async def _async_serving_chat_init():`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00			`engine = MockEngine()`
			`model_config = await engine.get_model_config()`

			`serving_completion = OpenAIServingChat(engine,`
			`model_config,`
[Core] Support Lora lineage and base model metadata management (#6315) 2024-09-19 23:20:56 -07:00			`BASE_MODEL_PATHS,`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`response_role="assistant",`
[Frontend] Refactor prompt processing (#4028) Co-authored-by: Roger Wang <ywang@roblox.com> 2024-07-23 01:13:53 +08:00			`chat_template=CHAT_TEMPLATE,`
			`lora_modules=None,`
			`prompt_adapters=None,`
			`request_logger=None)`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`return serving_completion`


			`def test_async_serving_chat_init():`
			`serving_completion = asyncio.run(_async_serving_chat_init())`
[BugFix][Frontend] Use LoRA tokenizer in OpenAI APIs (#6227) Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> 2024-07-18 00:13:30 -07:00			`assert serving_completion.chat_template == CHAT_TEMPLATE`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00

			`def test_serving_chat_should_set_correct_max_tokens():`
[Core][Bugfix][Perf] Introduce `MQLLMEngine` to avoid `asyncio` OH (#8157) Co-authored-by: Nick Hill <nickhill@us.ibm.com> Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-neuralmagic@users.noreply.github.com> Co-authored-by: Simon Mo <simon.mo@hey.com> 2024-09-18 09:56:58 -04:00			`mock_engine = MagicMock(spec=MQLLMEngineClient)`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00			`mock_engine.get_tokenizer.return_value = get_tokenizer(MODEL_NAME)`
[Core][Bugfix][Perf] Introduce `MQLLMEngine` to avoid `asyncio` OH (#8157) Co-authored-by: Nick Hill <nickhill@us.ibm.com> Co-authored-by: rshaw@neuralmagic.com <rshaw@neuralmagic.com> Co-authored-by: Robert Shaw <114415538+robertgshaw2-neuralmagic@users.noreply.github.com> Co-authored-by: Simon Mo <simon.mo@hey.com> 2024-09-18 09:56:58 -04:00			`mock_engine.errored = False`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00
			`serving_chat = OpenAIServingChat(mock_engine,`
			`MockModelConfig(),`
[Core] Support Lora lineage and base model metadata management (#6315) 2024-09-19 23:20:56 -07:00			`BASE_MODEL_PATHS,`
[Bugfix] Set SamplingParams.max_tokens for OpenAI requests if not provided by user (#6954) 2024-07-31 21:13:34 -07:00			`response_role="assistant",`
			`chat_template=CHAT_TEMPLATE,`
			`lora_modules=None,`
			`prompt_adapters=None,`
			`request_logger=None)`
			`req = ChatCompletionRequest(`
			`model=MODEL_NAME,`
			`messages=[{`
			`"role": "user",`
			`"content": "what is 1+1?"`
			`}],`
			`guided_decoding_backend="outlines",`
			`)`

			`with suppress(Exception):`
			`asyncio.run(serving_chat.create_chat_completion(req))`

			`assert mock_engine.generate.call_args.args[1].max_tokens == 93`

			`req.max_tokens = 10`
			`with suppress(Exception):`
			`asyncio.run(serving_chat.create_chat_completion(req))`

			`assert mock_engine.generate.call_args.args[1].max_tokens == 10`