vllm/tests/entrypoints/openai/test_serving_chat.py

import asyncio
from dataclasses import dataclass

from vllm.entrypoints.openai.serving_chat import OpenAIServingChat

MODEL_NAME = "openai-community/gpt2"
CHAT_TEMPLATE = "Dummy chat template for testing {}"


@dataclass
class MockModelConfig:
    tokenizer = MODEL_NAME
    trust_remote_code = False
    tokenizer_mode = "auto"
    max_model_len = 100
    tokenizer_revision = None
    embedding_mode = False


@dataclass
class MockEngine:

    async def get_model_config(self):
        return MockModelConfig()


async def _async_serving_chat_init():
    engine = MockEngine()
    model_config = await engine.get_model_config()

    serving_completion = OpenAIServingChat(engine,
                                           model_config,
                                           served_model_names=[MODEL_NAME],
                                           response_role="assistant",
                                           chat_template=CHAT_TEMPLATE,
                                           lora_modules=None,
                                           prompt_adapters=None,
                                           request_logger=None)
    return serving_completion


def test_async_serving_chat_init():
    serving_completion = asyncio.run(_async_serving_chat_init())
    assert serving_completion.chat_template == CHAT_TEMPLATE
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`import asyncio`
			`from dataclasses import dataclass`

			`from vllm.entrypoints.openai.serving_chat import OpenAIServingChat`

			`MODEL_NAME = "openai-community/gpt2"`
			`CHAT_TEMPLATE = "Dummy chat template for testing {}"`


			`@dataclass`
			`class MockModelConfig:`
			`tokenizer = MODEL_NAME`
			`trust_remote_code = False`
			`tokenizer_mode = "auto"`
			`max_model_len = 100`
			`tokenizer_revision = None`
[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734) 2024-05-11 11:30:37 -07:00			`embedding_mode = False`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00

			`@dataclass`
			`class MockEngine:`

			`async def get_model_config(self):`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00			`return MockModelConfig()`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00

			`async def _async_serving_chat_init():`
[Frontend] Move async logic outside of constructor (#4674) 2024-05-09 13:48:33 +08:00			`engine = MockEngine()`
			`model_config = await engine.get_model_config()`

			`serving_completion = OpenAIServingChat(engine,`
			`model_config,`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`served_model_names=[MODEL_NAME],`
			`response_role="assistant",`
[Frontend] Refactor prompt processing (#4028) Co-authored-by: Roger Wang <ywang@roblox.com> 2024-07-23 01:13:53 +08:00			`chat_template=CHAT_TEMPLATE,`
			`lora_modules=None,`
			`prompt_adapters=None,`
			`request_logger=None)`
Fix/async chat serving (#2727) 2024-05-03 20:04:14 +02:00			`return serving_completion`


			`def test_async_serving_chat_init():`
			`serving_completion = asyncio.run(_async_serving_chat_init())`
[BugFix][Frontend] Use LoRA tokenizer in OpenAI APIs (#6227) Co-authored-by: Cyrus Leung <cyrus.tl.leung@gmail.com> 2024-07-18 00:13:30 -07:00			`assert serving_completion.chat_template == CHAT_TEMPLATE`