vllm/vllm/entrypoints/openai/serving_chat.py

import codecs
import time
from typing import AsyncGenerator, AsyncIterator, List, Optional, Union

from fastapi import Request

from vllm.engine.async_llm_engine import AsyncLLMEngine
from vllm.entrypoints.openai.protocol import (
    ChatCompletionRequest, ChatCompletionResponse,
    ChatCompletionResponseChoice, ChatCompletionResponseStreamChoice,
    ChatCompletionStreamResponse, ChatMessage, DeltaMessage, ErrorResponse,
    UsageInfo)
from vllm.entrypoints.openai.serving_engine import LoRA, OpenAIServing
from vllm.logger import init_logger
from vllm.model_executor.guided_decoding import (
    get_guided_decoding_logits_processor)
from vllm.outputs import RequestOutput
from vllm.utils import random_uuid

logger = init_logger(__name__)


class OpenAIServingChat(OpenAIServing):

    def __init__(self,
                 engine: AsyncLLMEngine,
                 served_model_names: List[str],
                 response_role: str,
                 lora_modules: Optional[List[LoRA]] = None,
                 chat_template=None):
        super().__init__(engine=engine,
                         served_model_names=served_model_names,
                         lora_modules=lora_modules)
        self.response_role = response_role
        self._load_chat_template(chat_template)

    async def create_chat_completion(
        self, request: ChatCompletionRequest, raw_request: Request
    ) -> Union[ErrorResponse, AsyncGenerator[str, None],
               ChatCompletionResponse]:
        """Completion API similar to OpenAI's API.

        See https://platform.openai.com/docs/api-reference/chat/create
        for the API specification. This API mimics the OpenAI
        ChatCompletion API.

        NOTE: Currently we do not support the following feature:
            - function_call (Users should implement this by themselves)
        """
        error_check_ret = await self._check_model(request)
        if error_check_ret is not None:
            return error_check_ret

        try:
            prompt = self.tokenizer.apply_chat_template(
                conversation=request.messages,
                tokenize=False,
                add_generation_prompt=request.add_generation_prompt)
        except Exception as e:
            logger.error(
                f"Error in applying chat template from request: {str(e)}")
            return self.create_error_response(str(e))

        request_id = f"cmpl-{random_uuid()}"
        try:
            # Tokenize/detokenize depending on prompt format (string/token list)
            prompt_ids, prompt_text = self._validate_prompt_and_tokenize(
                request, prompt=prompt)
            sampling_params = request.to_sampling_params()
            lora_request = self._maybe_get_lora(request)
            decoding_config = self.engine.engine.decoding_config
            guided_decoding_backend = request.guided_decoding_backend \
                or decoding_config.guided_decoding_backend
            guided_decode_logits_processor = (
                await get_guided_decoding_logits_processor(
                    guided_decoding_backend, request, await
                    self.engine.get_tokenizer()))
            if guided_decode_logits_processor:
                if sampling_params.logits_processors is None:
                    sampling_params.logits_processors = []
                sampling_params.logits_processors.append(
                    guided_decode_logits_processor)
        except ValueError as e:
            return self.create_error_response(str(e))

        result_generator = self.engine.generate(prompt_text, sampling_params,
                                                request_id, prompt_ids,
                                                lora_request)
        # Streaming response
        if request.stream:
            return self.chat_completion_stream_generator(
                request, result_generator, request_id)
        else:
            try:
                return await self.chat_completion_full_generator(
                    request, raw_request, result_generator, request_id)
            except ValueError as e:
                # TODO: Use a vllm-specific Validation Error
                return self.create_error_response(str(e))

    def get_chat_request_role(self, request: ChatCompletionRequest) -> str:
        if request.add_generation_prompt:
            return self.response_role
        else:
            return request.messages[-1]["role"]

    async def chat_completion_stream_generator(
            self, request: ChatCompletionRequest,
            result_generator: AsyncIterator[RequestOutput], request_id: str
    ) -> Union[ErrorResponse, AsyncGenerator[str, None]]:

        model_name = self.served_model_names[0]
        created_time = int(time.time())
        chunk_object_type = "chat.completion.chunk"
        first_iteration = True

        # Send response for each token for each request.n (index)
        previous_texts = [""] * request.n
        previous_num_tokens = [0] * request.n
        finish_reason_sent = [False] * request.n
        try:
            async for res in result_generator:
                res: RequestOutput
                # We need to do it here, because if there are exceptions in
                # the result_generator, it needs to be sent as the FIRST
                # response (by the try...catch).
                if first_iteration:
                    # Send first response for each request.n (index) with
                    # the role
                    role = self.get_chat_request_role(request)
                    for i in range(request.n):
                        choice_data = ChatCompletionResponseStreamChoice(
                            index=i,
                            delta=DeltaMessage(role=role),
                            logprobs=None,
                            finish_reason=None)
                        chunk = ChatCompletionStreamResponse(
                            id=request_id,
                            object=chunk_object_type,
                            created=created_time,
                            choices=[choice_data],
                            model=model_name)
                        data = chunk.model_dump_json(exclude_unset=True)
                        yield f"data: {data}\n\n"

                    # Send response to echo the input portion of the
                    # last message
                    if request.echo:
                        last_msg_content = ""
                        if request.messages and isinstance(
                                request.messages,
                                list) and request.messages[-1].get(
                                    "content") and request.messages[-1].get(
                                        "role") == role:
                            last_msg_content = request.messages[-1]["content"]

                        if last_msg_content:
                            for i in range(request.n):
                                choice_data = (
                                    ChatCompletionResponseStreamChoice(
                                        index=i,
                                        delta=DeltaMessage(
                                            content=last_msg_content),
                                        finish_reason=None))
                                chunk = ChatCompletionStreamResponse(
                                    id=request_id,
                                    object=chunk_object_type,
                                    created=created_time,
                                    choices=[choice_data],
                                    logprobs=None,
                                    model=model_name)
                                data = chunk.model_dump_json(
                                    exclude_unset=True)
                                yield f"data: {data}\n\n"
                    first_iteration = False

                for output in res.outputs:
                    i = output.index

                    if finish_reason_sent[i]:
                        continue

                    delta_token_ids = output.token_ids[previous_num_tokens[i]:]
                    top_logprobs = output.logprobs[
                        previous_num_tokens[i]:] if output.logprobs else None

                    if request.logprobs:
                        logprobs = self._create_logprobs(
                            token_ids=delta_token_ids,
                            top_logprobs=top_logprobs,
                            num_output_top_logprobs=request.logprobs,
                            initial_text_offset=len(previous_texts[i]),
                        )
                    else:
                        logprobs = None

                    delta_text = output.text[len(previous_texts[i]):]
                    previous_texts[i] = output.text
                    previous_num_tokens[i] = len(output.token_ids)
                    if output.finish_reason is None:
                        # Send token-by-token response for each request.n
                        choice_data = ChatCompletionResponseStreamChoice(
                            index=i,
                            delta=DeltaMessage(content=delta_text),
                            logprobs=logprobs,
                            finish_reason=None)
                        chunk = ChatCompletionStreamResponse(
                            id=request_id,
                            object=chunk_object_type,
                            created=created_time,
                            choices=[choice_data],
                            model=model_name)
                        data = chunk.model_dump_json(exclude_unset=True)
                        yield f"data: {data}\n\n"
                    else:
                        # Send the finish response for each request.n only once
                        prompt_tokens = len(res.prompt_token_ids)
                        final_usage = UsageInfo(
                            prompt_tokens=prompt_tokens,
                            completion_tokens=previous_num_tokens[i],
                            total_tokens=prompt_tokens +
                            previous_num_tokens[i],
                        )
                        choice_data = ChatCompletionResponseStreamChoice(
                            index=i,
                            delta=DeltaMessage(content=delta_text),
                            logprobs=logprobs,
                            finish_reason=output.finish_reason,
                            stop_reason=output.stop_reason)
                        chunk = ChatCompletionStreamResponse(
                            id=request_id,
                            object=chunk_object_type,
                            created=created_time,
                            choices=[choice_data],
                            model=model_name)
                        if final_usage is not None:
                            chunk.usage = final_usage
                        data = chunk.model_dump_json(exclude_unset=True,
                                                     exclude_none=True)
                        yield f"data: {data}\n\n"
                        finish_reason_sent[i] = True
        except ValueError as e:
            # TODO: Use a vllm-specific Validation Error
            data = self.create_streaming_error_response(str(e))
            yield f"data: {data}\n\n"
        # Send the final done message after all response.n are finished
        yield "data: [DONE]\n\n"

    async def chat_completion_full_generator(
            self, request: ChatCompletionRequest, raw_request: Request,
            result_generator: AsyncIterator[RequestOutput],
            request_id: str) -> Union[ErrorResponse, ChatCompletionResponse]:

        model_name = self.served_model_names[0]
        created_time = int(time.time())
        final_res: RequestOutput = None

        async for res in result_generator:
            if await raw_request.is_disconnected():
                # Abort the request if the client disconnects.
                await self.engine.abort(request_id)
                return self.create_error_response("Client disconnected")
            final_res = res
        assert final_res is not None

        choices = []

        role = self.get_chat_request_role(request)
        for output in final_res.outputs:
            token_ids = output.token_ids
            top_logprobs = output.logprobs

            if request.logprobs:
                logprobs = self._create_logprobs(
                    token_ids=token_ids,
                    top_logprobs=top_logprobs,
                    num_output_top_logprobs=request.logprobs,
                )
            else:
                logprobs = None

            choice_data = ChatCompletionResponseChoice(
                index=output.index,
                message=ChatMessage(role=role, content=output.text),
                logprobs=logprobs,
                finish_reason=output.finish_reason,
                stop_reason=output.stop_reason,
            )
            choices.append(choice_data)

        if request.echo:
            last_msg_content = ""
            if request.messages and isinstance(
                    request.messages, list) and request.messages[-1].get(
                        "content") and request.messages[-1].get(
                            "role") == role:
                last_msg_content = request.messages[-1]["content"]

            for choice in choices:
                full_message = last_msg_content + choice.message.content
                choice.message.content = full_message

        num_prompt_tokens = len(final_res.prompt_token_ids)
        num_generated_tokens = sum(
            len(output.token_ids) for output in final_res.outputs)
        usage = UsageInfo(
            prompt_tokens=num_prompt_tokens,
            completion_tokens=num_generated_tokens,
            total_tokens=num_prompt_tokens + num_generated_tokens,
        )
        response = ChatCompletionResponse(
            id=request_id,
            created=created_time,
            model=model_name,
            choices=choices,
            usage=usage,
        )

        return response

    def _load_chat_template(self, chat_template):
        if chat_template is not None:
            try:
                with open(chat_template, "r") as f:
                    self.tokenizer.chat_template = f.read()
            except OSError:
                # If opening a file fails, set chat template to be args to
                # ensure we decode so our escape are interpreted correctly
                self.tokenizer.chat_template = codecs.decode(
                    chat_template, "unicode_escape")

            logger.info(
                f"Using supplied chat template:\n{self.tokenizer.chat_template}"
            )
        elif self.tokenizer.chat_template is not None:
            logger.info(
                f"Using default chat template:\n{self.tokenizer.chat_template}"
            )
        else:
            logger.warning(
                "No chat template provided. Chat API will not work.")
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`import codecs`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`import time`
			`from typing import AsyncGenerator, AsyncIterator, List, Optional, Union`

OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`from fastapi import Request`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`from vllm.engine.async_llm_engine import AsyncLLMEngine`
			`from vllm.entrypoints.openai.protocol import (`
			`ChatCompletionRequest, ChatCompletionResponse,`
			`ChatCompletionResponseChoice, ChatCompletionResponseStreamChoice,`
			`ChatCompletionStreamResponse, ChatMessage, DeltaMessage, ErrorResponse,`
			`UsageInfo)`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from vllm.entrypoints.openai.serving_engine import LoRA, OpenAIServing`
			`from vllm.logger import init_logger`
Re-enable the 80 char line width limit (#3305) 2024-03-10 19:49:14 -07:00			`from vllm.model_executor.guided_decoding import (`
			`get_guided_decoding_logits_processor)`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from vllm.outputs import RequestOutput`
			`from vllm.utils import random_uuid`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00
			`logger = init_logger(__name__)`


			`class OpenAIServingChat(OpenAIServing):`

			`def __init__(self,`
			`engine: AsyncLLMEngine,`
Allow model to be served under multiple names (#2894) Co-authored-by: Alexandre Payot <alexandrep@graphcore.ai> 2024-04-18 08:16:26 +01:00			`served_model_names: List[str],`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`response_role: str,`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`lora_modules: Optional[List[LoRA]] = None,`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`chat_template=None):`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`super().__init__(engine=engine,`
Allow model to be served under multiple names (#2894) Co-authored-by: Alexandre Payot <alexandrep@graphcore.ai> 2024-04-18 08:16:26 +01:00			`served_model_names=served_model_names,`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`lora_modules=lora_modules)`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`self.response_role = response_role`
			`self._load_chat_template(chat_template)`

			`async def create_chat_completion(`
			`self, request: ChatCompletionRequest, raw_request: Request`
			`) -> Union[ErrorResponse, AsyncGenerator[str, None],`
			`ChatCompletionResponse]:`
			`"""Completion API similar to OpenAI's API.`

Re-enable the 80 char line width limit (#3305) 2024-03-10 19:49:14 -07:00			`See https://platform.openai.com/docs/api-reference/chat/create`
			`for the API specification. This API mimics the OpenAI`
			`ChatCompletion API.`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00
Support logit bias for OpenAI API (#3027) 2024-02-26 19:51:53 -08:00			`NOTE: Currently we do not support the following feature:`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`- function_call (Users should implement this by themselves)`
			`"""`
			`error_check_ret = await self._check_model(request)`
			`if error_check_ret is not None:`
			`return error_check_ret`

			`try:`
			`prompt = self.tokenizer.apply_chat_template(`
			`conversation=request.messages,`
			`tokenize=False,`
			`add_generation_prompt=request.add_generation_prompt)`
			`except Exception as e:`
			`logger.error(`
			`f"Error in applying chat template from request: {str(e)}")`
			`return self.create_error_response(str(e))`

			`request_id = f"cmpl-{random_uuid()}"`
			`try:`
Fix echo/logprob OpenAI completion bug (#3441) Co-authored-by: Dylan Hawk <dylanwawk@gmail.com> 2024-04-11 15:15:50 -07:00			`# Tokenize/detokenize depending on prompt format (string/token list)`
			`prompt_ids, prompt_text = self._validate_prompt_and_tokenize(`
			`request, prompt=prompt)`
refactor complemention api for readability (#2499) 2024-01-18 16:45:14 -08:00			`sampling_params = request.to_sampling_params()`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`lora_request = self._maybe_get_lora(request)`
LM Format Enforcer Guided Decoding Support (#3868) Co-authored-by: Simon Mo <simon.mo@hey.com> 2024-04-16 08:54:57 +03:00			`decoding_config = self.engine.engine.decoding_config`
			`guided_decoding_backend = request.guided_decoding_backend \`
			`or decoding_config.guided_decoding_backend`
Add guided decoding for OpenAI API server (#2819) Co-authored-by: br3no <breno@veltefaria.de> Co-authored-by: simon-mo <simon.mo@hey.com> 2024-02-29 14:13:08 -08:00			`guided_decode_logits_processor = (`
			`await get_guided_decoding_logits_processor(`
LM Format Enforcer Guided Decoding Support (#3868) Co-authored-by: Simon Mo <simon.mo@hey.com> 2024-04-16 08:54:57 +03:00			`guided_decoding_backend, request, await`
			`self.engine.get_tokenizer()))`
Add guided decoding for OpenAI API server (#2819) Co-authored-by: br3no <breno@veltefaria.de> Co-authored-by: simon-mo <simon.mo@hey.com> 2024-02-29 14:13:08 -08:00			`if guided_decode_logits_processor:`
			`if sampling_params.logits_processors is None:`
			`sampling_params.logits_processors = []`
			`sampling_params.logits_processors.append(`
			`guided_decode_logits_processor)`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`except ValueError as e:`
			`return self.create_error_response(str(e))`

Fix echo/logprob OpenAI completion bug (#3441) Co-authored-by: Dylan Hawk <dylanwawk@gmail.com> 2024-04-11 15:15:50 -07:00			`result_generator = self.engine.generate(prompt_text, sampling_params,`
			`request_id, prompt_ids,`
multi-LoRA as extra models in OpenAI server (#2775) how to serve the loras (mimicking the [multilora inference example](https://github.com/vllm-project/vllm/blob/main/examples/multilora_inference.py)): ```terminal $ export LORA_PATH=~/.cache/huggingface/hub/models--yard1--llama-2-7b-sql-lora-test/ $ python -m vllm.entrypoints.api_server \ --model meta-llama/Llama-2-7b-hf \ --enable-lora \ --lora-modules sql-lora=$LORA_PATH sql-lora2=$LORA_PATH ``` the above server will list 3 separate values if the user queries `/models`: one for the base served model, and one each for the specified lora modules. in this case sql-lora and sql-lora2 point to the same underlying lora, but this need not be the case. lora config values take the same values they do in EngineArgs no work has been done here to scope client permissions to specific models 2024-02-17 15:00:48 -05:00			`lora_request)`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`# Streaming response`
			`if request.stream:`
			`return self.chat_completion_stream_generator(`
			`request, result_generator, request_id)`
			`else:`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`try:`
			`return await self.chat_completion_full_generator(`
			`request, raw_request, result_generator, request_id)`
			`except ValueError as e:`
			`# TODO: Use a vllm-specific Validation Error`
			`return self.create_error_response(str(e))`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00
			`def get_chat_request_role(self, request: ChatCompletionRequest) -> str:`
			`if request.add_generation_prompt:`
			`return self.response_role`
			`else:`
Fix: `AttributeError` in OpenAI-compatible server (#3018) 2024-02-29 01:04:07 -05:00			`return request.messages[-1]["role"]`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00
			`async def chat_completion_stream_generator(`
			`self, request: ChatCompletionRequest,`
			`result_generator: AsyncIterator[RequestOutput], request_id: str`
			`) -> Union[ErrorResponse, AsyncGenerator[str, None]]:`

Allow model to be served under multiple names (#2894) Co-authored-by: Alexandre Payot <alexandrep@graphcore.ai> 2024-04-18 08:16:26 +01:00			`model_name = self.served_model_names[0]`
Fixes the misuse/mixuse of time.time()/time.monotonic() (#3220) Signed-off-by: Tao He <sighingnow@gmail.com> Co-authored-by: simon-mo <simon.mo@hey.com> 2024-03-16 02:25:43 +08:00			`created_time = int(time.time())`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`chunk_object_type = "chat.completion.chunk"`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`first_iteration = True`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00
			`# Send response for each token for each request.n (index)`
			`previous_texts = [""] * request.n`
			`previous_num_tokens = [0] * request.n`
			`finish_reason_sent = [False] * request.n`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`try:`
			`async for res in result_generator:`
			`res: RequestOutput`
			`# We need to do it here, because if there are exceptions in`
			`# the result_generator, it needs to be sent as the FIRST`
			`# response (by the try...catch).`
			`if first_iteration:`
Re-enable the 80 char line width limit (#3305) 2024-03-10 19:49:14 -07:00			`# Send first response for each request.n (index) with`
			`# the role`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`role = self.get_chat_request_role(request)`
			`for i in range(request.n):`
			`choice_data = ChatCompletionResponseStreamChoice(`
			`index=i,`
			`delta=DeltaMessage(role=role),`
			`logprobs=None,`
			`finish_reason=None)`
			`chunk = ChatCompletionStreamResponse(`
			`id=request_id,`
			`object=chunk_object_type,`
			`created=created_time,`
			`choices=[choice_data],`
			`model=model_name)`
			`data = chunk.model_dump_json(exclude_unset=True)`
			`yield f"data: {data}\n\n"`

Re-enable the 80 char line width limit (#3305) 2024-03-10 19:49:14 -07:00			`# Send response to echo the input portion of the`
			`# last message`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`if request.echo:`
			`last_msg_content = ""`
			`if request.messages and isinstance(`
			`request.messages,`
			`list) and request.messages[-1].get(`
			`"content") and request.messages[-1].get(`
			`"role") == role:`
			`last_msg_content = request.messages[-1]["content"]`

			`if last_msg_content:`
			`for i in range(request.n):`
Re-enable the 80 char line width limit (#3305) 2024-03-10 19:49:14 -07:00			`choice_data = (`
			`ChatCompletionResponseStreamChoice(`
			`index=i,`
			`delta=DeltaMessage(`
			`content=last_msg_content),`
			`finish_reason=None))`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`chunk = ChatCompletionStreamResponse(`
			`id=request_id,`
			`object=chunk_object_type,`
			`created=created_time,`
			`choices=[choice_data],`
			`logprobs=None,`
			`model=model_name)`
			`data = chunk.model_dump_json(`
			`exclude_unset=True)`
			`yield f"data: {data}\n\n"`
			`first_iteration = False`

			`for output in res.outputs:`
			`i = output.index`

			`if finish_reason_sent[i]:`
			`continue`

			`delta_token_ids = output.token_ids[previous_num_tokens[i]:]`
			`top_logprobs = output.logprobs[`
			`previous_num_tokens[i]:] if output.logprobs else None`

			`if request.logprobs:`
			`logprobs = self._create_logprobs(`
			`token_ids=delta_token_ids,`
			`top_logprobs=top_logprobs,`
			`num_output_top_logprobs=request.logprobs,`
			`initial_text_offset=len(previous_texts[i]),`
			`)`
			`else:`
			`logprobs = None`

			`delta_text = output.text[len(previous_texts[i]):]`
			`previous_texts[i] = output.text`
			`previous_num_tokens[i] = len(output.token_ids)`
			`if output.finish_reason is None:`
			`# Send token-by-token response for each request.n`
			`choice_data = ChatCompletionResponseStreamChoice(`
			`index=i,`
			`delta=DeltaMessage(content=delta_text),`
			`logprobs=logprobs,`
			`finish_reason=None)`
			`chunk = ChatCompletionStreamResponse(`
			`id=request_id,`
			`object=chunk_object_type,`
			`created=created_time,`
			`choices=[choice_data],`
			`model=model_name)`
			`data = chunk.model_dump_json(exclude_unset=True)`
			`yield f"data: {data}\n\n"`
			`else:`
			`# Send the finish response for each request.n only once`
			`prompt_tokens = len(res.prompt_token_ids)`
			`final_usage = UsageInfo(`
			`prompt_tokens=prompt_tokens,`
			`completion_tokens=previous_num_tokens[i],`
			`total_tokens=prompt_tokens +`
			`previous_num_tokens[i],`
			`)`
			`choice_data = ChatCompletionResponseStreamChoice(`
			`index=i,`
			`delta=DeltaMessage(content=delta_text),`
			`logprobs=logprobs,`
[Misc] Include matched stop string/token in responses (#2976) Co-authored-by: Sahil Suneja <sahilsuneja@gmail.com> 2024-03-25 17:31:32 -07:00			`finish_reason=output.finish_reason,`
			`stop_reason=output.stop_reason)`
Push logprob generation to LLMEngine (#3065) Co-authored-by: Avnish Narayan <avnish@anyscale.com> 2024-03-04 11:54:06 -08:00			`chunk = ChatCompletionStreamResponse(`
			`id=request_id,`
			`object=chunk_object_type,`
			`created=created_time,`
			`choices=[choice_data],`
			`model=model_name)`
			`if final_usage is not None:`
			`chunk.usage = final_usage`
			`data = chunk.model_dump_json(exclude_unset=True,`
			`exclude_none=True)`
			`yield f"data: {data}\n\n"`
			`finish_reason_sent[i] = True`
			`except ValueError as e:`
			`# TODO: Use a vllm-specific Validation Error`
			`data = self.create_streaming_error_response(str(e))`
			`yield f"data: {data}\n\n"`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`# Send the final done message after all response.n are finished`
			`yield "data: [DONE]\n\n"`

			`async def chat_completion_full_generator(`
			`self, request: ChatCompletionRequest, raw_request: Request,`
			`result_generator: AsyncIterator[RequestOutput],`
			`request_id: str) -> Union[ErrorResponse, ChatCompletionResponse]:`

Allow model to be served under multiple names (#2894) Co-authored-by: Alexandre Payot <alexandrep@graphcore.ai> 2024-04-18 08:16:26 +01:00			`model_name = self.served_model_names[0]`
Fixes the misuse/mixuse of time.time()/time.monotonic() (#3220) Signed-off-by: Tao He <sighingnow@gmail.com> Co-authored-by: simon-mo <simon.mo@hey.com> 2024-03-16 02:25:43 +08:00			`created_time = int(time.time())`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`final_res: RequestOutput = None`

			`async for res in result_generator:`
			`if await raw_request.is_disconnected():`
			`# Abort the request if the client disconnects.`
			`await self.engine.abort(request_id)`
			`return self.create_error_response("Client disconnected")`
			`final_res = res`
			`assert final_res is not None`

			`choices = []`
Add LogProbs for Chat Completions in OpenAI (#2918) 2024-02-25 18:39:34 -08:00
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`role = self.get_chat_request_role(request)`
			`for output in final_res.outputs:`
Add LogProbs for Chat Completions in OpenAI (#2918) 2024-02-25 18:39:34 -08:00			`token_ids = output.token_ids`
			`top_logprobs = output.logprobs`

			`if request.logprobs:`
			`logprobs = self._create_logprobs(`
			`token_ids=token_ids,`
			`top_logprobs=top_logprobs,`
			`num_output_top_logprobs=request.logprobs,`
			`)`
			`else:`
			`logprobs = None`

OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`choice_data = ChatCompletionResponseChoice(`
			`index=output.index,`
			`message=ChatMessage(role=role, content=output.text),`
Add LogProbs for Chat Completions in OpenAI (#2918) 2024-02-25 18:39:34 -08:00			`logprobs=logprobs,`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`finish_reason=output.finish_reason,`
[Misc] Include matched stop string/token in responses (#2976) Co-authored-by: Sahil Suneja <sahilsuneja@gmail.com> 2024-03-25 17:31:32 -07:00			`stop_reason=output.stop_reason,`
OpenAI Server refactoring (#2360) 2024-01-17 05:33:14 +00:00			`)`
			`choices.append(choice_data)`

			`if request.echo:`
			`last_msg_content = ""`
			`if request.messages and isinstance(`
			`request.messages, list) and request.messages[-1].get(`
			`"content") and request.messages[-1].get(`
			`"role") == role:`
			`last_msg_content = request.messages[-1]["content"]`

			`for choice in choices:`
			`full_message = last_msg_content + choice.message.content`
			`choice.message.content = full_message`

			`num_prompt_tokens = len(final_res.prompt_token_ids)`
			`num_generated_tokens = sum(`
			`len(output.token_ids) for output in final_res.outputs)`
			`usage = UsageInfo(`
			`prompt_tokens=num_prompt_tokens,`
			`completion_tokens=num_generated_tokens,`
			`total_tokens=num_prompt_tokens + num_generated_tokens,`
			`)`
			`response = ChatCompletionResponse(`
			`id=request_id,`
			`created=created_time,`
			`model=model_name,`
			`choices=choices,`
			`usage=usage,`
			`)`

			`return response`

			`def _load_chat_template(self, chat_template):`
			`if chat_template is not None:`
			`try:`
			`with open(chat_template, "r") as f:`
			`self.tokenizer.chat_template = f.read()`
			`except OSError:`
			`# If opening a file fails, set chat template to be args to`
			`# ensure we decode so our escape are interpreted correctly`
			`self.tokenizer.chat_template = codecs.decode(`
			`chat_template, "unicode_escape")`

			`logger.info(`
			`f"Using supplied chat template:\n{self.tokenizer.chat_template}"`
			`)`
			`elif self.tokenizer.chat_template is not None:`
			`logger.info(`
			`f"Using default chat template:\n{self.tokenizer.chat_template}"`
			`)`
			`else:`
			`logger.warning(`
			`"No chat template provided. Chat API will not work.")`