vllm/tests/core/utils.py

import time
from typing import List, Optional
from typing import Sequence as GenericSequence
from typing import Tuple

from vllm import SamplingParams
from vllm.lora.request import LoRARequest
from vllm.sequence import Logprob, Sequence, SequenceGroup


def create_dummy_prompt(
    request_id: str,
    prompt_length: int,
    block_size: Optional[int] = None,
    lora_request: Optional[LoRARequest] = None,
    use_beam_search: bool = False,
    best_of: int = 1,
    prompt_tokens: Optional[List[int]] = None,
) -> Tuple[Sequence, SequenceGroup]:
    if not block_size:
        block_size = prompt_length

    if prompt_tokens is None:
        # Create dummy prompt sequence with tokens 0...block_size-1
        # and prompt "0 ... block_size".
        prompt_tokens = list(range(prompt_length))
    prompt_str = " ".join([str(t) for t in prompt_tokens])
    prompt = Sequence(int(request_id),
                      inputs={
                          "prompt": prompt_str,
                          "prompt_token_ids": prompt_tokens,
                      },
                      block_size=block_size)
    seq_group = SequenceGroup(request_id=request_id,
                              seqs=[prompt],
                              arrival_time=time.time(),
                              sampling_params=SamplingParams(
                                  use_beam_search=use_beam_search,
                                  best_of=best_of),
                              lora_request=lora_request)

    return prompt, seq_group


def create_dummy_prompt_encoder_decoder(
    request_id: str,
    decoder_prompt_length: int,
    encoder_prompt_length: int,
    block_size: Optional[int] = None,
    lora_request: Optional[LoRARequest] = None,
    use_beam_search: bool = False,
    best_of: int = 1,
) -> Tuple[Sequence, Sequence, SequenceGroup]:
    if not block_size:
        block_size = decoder_prompt_length

    # Create dummy prompt sequence with tokens 0...block_size-1
    # and prompt "0 ... block_size". Note that the prompt string
    # doesn't actually match the tokens
    decoder_prompt_tokens = list(range(decoder_prompt_length))
    decoder_prompt_str = " ".join([str(t) for t in decoder_prompt_tokens])
    encoder_prompt_tokens = list(reversed(list(range(encoder_prompt_length))))
    encoder_prompt_str = " ".join([str(t) for t in encoder_prompt_tokens])

    inputs = {
        "prompt": decoder_prompt_str,
        "prompt_token_ids": decoder_prompt_tokens,
        "encoder_prompt": encoder_prompt_str,
        "encoder_prompt_token_ids": encoder_prompt_tokens,
        "multi_modal_data": None,
    }

    decoder_prompt = Sequence(int(request_id),
                              inputs=inputs,
                              block_size=block_size,
                              from_decoder_prompt=True)

    encoder_prompt = Sequence(int(request_id),
                              inputs=inputs,
                              block_size=block_size,
                              from_decoder_prompt=False)
    seq_group = SequenceGroup(request_id=request_id,
                              seqs=[decoder_prompt],
                              sampling_params=SamplingParams(
                                  use_beam_search=use_beam_search,
                                  best_of=best_of),
                              arrival_time=time.time(),
                              lora_request=lora_request,
                              encoder_seq=encoder_prompt)

    return decoder_prompt, encoder_prompt, seq_group


def create_seq_group(
        seq_prompt_len: int = 1024,
        seq_output_lens: GenericSequence[int] = (128, ),
        request_id: str = '0',
        seq_id_start: int = 0,
        sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:

    assert len(seq_output_lens) > 0

    if sampling_params is None:
        sampling_params = SamplingParams()

    prompt_token_ids = [0] * seq_prompt_len

    seqs: List[Sequence] = []
    for seq_id_offset, output_len in enumerate(seq_output_lens):
        seq = Sequence(
            seq_id=seq_id_start + seq_id_offset,
            inputs={"prompt_token_ids": prompt_token_ids},
            block_size=16,
        )

        for i in range(output_len):
            seq.append_token_id(
                token_id=i,
                logprobs={i: Logprob(0.0)},
            )
        seqs.append(seq)

    seq_group = SequenceGroup(
        request_id=request_id,
        seqs=seqs,
        sampling_params=sampling_params,
        arrival_time=time.time(),
    )

    return seq_group


def create_seq_group_encoder_decoder(
        seq_prompt_len: int = 1024,
        seq_output_lens: GenericSequence[int] = (128, ),
        request_id: str = '0',
        seq_id_start: int = 0,
        sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:

    assert len(seq_output_lens) > 0

    if sampling_params is None:
        sampling_params = SamplingParams()

    prompt_token_ids = [0] * seq_prompt_len

    inputs = {
        "prompt": "",
        "prompt_token_ids": prompt_token_ids,
        "encoder_prompt": "",
        "encoder_prompt_token_ids": prompt_token_ids,
        "multi_modal_data": None,
    }

    seqs = []
    for seq_id_offset, output_len in enumerate(seq_output_lens):
        # Construct decoder input sequences
        seq = Sequence(seq_id=seq_id_start + seq_id_offset,
                       inputs=inputs,
                       block_size=16,
                       from_decoder_prompt=True)

        for i in range(output_len):
            seq.append_token_id(
                token_id=i,
                logprobs={i: Logprob(0.0)},
            )
        seqs.append(seq)

    # Encoder input sequence
    encoder_seq = Sequence(seq_id=seq_id_start + len(seq_output_lens),
                           inputs=inputs,
                           block_size=16,
                           from_decoder_prompt=False)

    return SequenceGroup(request_id=request_id,
                         seqs=seqs,
                         sampling_params=sampling_params,
                         arrival_time=time.time(),
                         encoder_seq=encoder_seq)


def round_up_to_next_block(seq_len: int, block_size: int) -> int:
    return (seq_len + block_size - 1) // block_size


# Helper functions for scheduler tests


def get_sequence_groups(scheduler_output):
    return [s.seq_group for s in scheduler_output.scheduled_seq_groups]


def append_new_token(out, token_id: int):
    seq_groups = get_sequence_groups(out)
    for seq_group in seq_groups:
        for seq in seq_group.get_seqs():
            seq.append_token_id(token_id, {token_id: Logprob(token_id)})


def schedule_and_update_computed_tokens(scheduler):
    metas, out, _ = scheduler.schedule()
    for s, meta in zip(out.scheduled_seq_groups, metas):
        s.seq_group.update_num_computed_tokens(meta.token_chunk_size)
    return metas, out


def append_new_token_seq_group(token_chunk_size, seq_group, token_id: int):
    seq_group.update_num_computed_tokens(token_chunk_size)
    for seq in seq_group.get_seqs():
        seq.append_token_id(token_id, {token_id: Logprob(token_id)})
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`import time`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`from typing import List, Optional`
			`from typing import Sequence as GenericSequence`
			`from typing import Tuple`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00
			`from vllm import SamplingParams`
[3/N] Refactor scheduler for chunked prefill scheduling (#3550) 2024-04-04 06:13:49 +09:00			`from vllm.lora.request import LoRARequest`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`from vllm.sequence import Logprob, Sequence, SequenceGroup`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00

			`def create_dummy_prompt(`
[3/N] Refactor scheduler for chunked prefill scheduling (#3550) 2024-04-04 06:13:49 +09:00			`request_id: str,`
			`prompt_length: int,`
			`block_size: Optional[int] = None,`
			`lora_request: Optional[LoRARequest] = None,`
			`use_beam_search: bool = False,`
			`best_of: int = 1,`
[Bugfix][fast] Fix the get_num_blocks_touched logic (#6849) 2024-08-08 10:43:30 -07:00			`prompt_tokens: Optional[List[int]] = None,`
[3/N] Refactor scheduler for chunked prefill scheduling (#3550) 2024-04-04 06:13:49 +09:00			`) -> Tuple[Sequence, SequenceGroup]:`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`if not block_size:`
			`block_size = prompt_length`

[Bugfix][fast] Fix the get_num_blocks_touched logic (#6849) 2024-08-08 10:43:30 -07:00			`if prompt_tokens is None:`
			`# Create dummy prompt sequence with tokens 0...block_size-1`
			`# and prompt "0 ... block_size".`
			`prompt_tokens = list(range(prompt_length))`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`prompt_str = " ".join([str(t) for t in prompt_tokens])`
[Core] Consolidate prompt arguments to LLM engines (#4328) Co-authored-by: Roger Wang <ywang@roblox.com> 2024-05-29 04:29:31 +08:00			`prompt = Sequence(int(request_id),`
			`inputs={`
			`"prompt": prompt_str,`
			`"prompt_token_ids": prompt_tokens,`
			`},`
			`block_size=block_size)`
[CI] Nits for bad initialization of SeqGroup in testing (#4748) 2024-05-10 16:01:01 -06:00			`seq_group = SequenceGroup(request_id=request_id,`
			`seqs=[prompt],`
			`arrival_time=time.time(),`
			`sampling_params=SamplingParams(`
			`use_beam_search=use_beam_search,`
			`best_of=best_of),`
			`lora_request=lora_request)`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00
			`return prompt, seq_group`


[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`def create_dummy_prompt_encoder_decoder(`
			`request_id: str,`
			`decoder_prompt_length: int,`
			`encoder_prompt_length: int,`
			`block_size: Optional[int] = None,`
			`lora_request: Optional[LoRARequest] = None,`
			`use_beam_search: bool = False,`
			`best_of: int = 1,`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`) -> Tuple[Sequence, Sequence, SequenceGroup]:`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`if not block_size:`
			`block_size = decoder_prompt_length`

			`# Create dummy prompt sequence with tokens 0...block_size-1`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`# and prompt "0 ... block_size". Note that the prompt string`
			`# doesn't actually match the tokens`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`decoder_prompt_tokens = list(range(decoder_prompt_length))`
			`decoder_prompt_str = " ".join([str(t) for t in decoder_prompt_tokens])`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`encoder_prompt_tokens = list(reversed(list(range(encoder_prompt_length))))`
			`encoder_prompt_str = " ".join([str(t) for t in encoder_prompt_tokens])`

			`inputs = {`
			`"prompt": decoder_prompt_str,`
			`"prompt_token_ids": decoder_prompt_tokens,`
			`"encoder_prompt": encoder_prompt_str,`
			`"encoder_prompt_token_ids": encoder_prompt_tokens,`
			`"multi_modal_data": None,`
			`}`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`decoder_prompt = Sequence(int(request_id),`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`inputs=inputs,`
			`block_size=block_size,`
			`from_decoder_prompt=True)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`encoder_prompt = Sequence(int(request_id),`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`inputs=inputs,`
			`block_size=block_size,`
			`from_decoder_prompt=False)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`seq_group = SequenceGroup(request_id=request_id,`
			`seqs=[decoder_prompt],`
			`sampling_params=SamplingParams(`
			`use_beam_search=use_beam_search,`
			`best_of=best_of),`
			`arrival_time=time.time(),`
			`lora_request=lora_request,`
			`encoder_seq=encoder_prompt)`

			`return decoder_prompt, encoder_prompt, seq_group`


[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`def create_seq_group(`
[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`seq_prompt_len: int = 1024,`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`seq_output_lens: GenericSequence[int] = (128, ),`
[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`request_id: str = '0',`
			`seq_id_start: int = 0,`
			`sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00
			`assert len(seq_output_lens) > 0`

[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`if sampling_params is None:`
			`sampling_params = SamplingParams()`

[Speculative decoding 4/9] Lookahead scheduling for speculative decoding (#3250) 2024-04-01 15:55:24 -07:00			`prompt_token_ids = [0] * seq_prompt_len`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`seqs: List[Sequence] = []`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`for seq_id_offset, output_len in enumerate(seq_output_lens):`
			`seq = Sequence(`
			`seq_id=seq_id_start + seq_id_offset,`
[Core] Avoid the need to pass `None` values to `Sequence.inputs` (#5099) 2024-05-30 07:05:01 +08:00			`inputs={"prompt_token_ids": prompt_token_ids},`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`block_size=16,`
			`)`

			`for i in range(output_len):`
			`seq.append_token_id(`
			`token_id=i,`
			`logprobs={i: Logprob(0.0)},`
			`)`
			`seqs.append(seq)`

			`seq_group = SequenceGroup(`
			`request_id=request_id,`
			`seqs=seqs,`
[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`sampling_params=sampling_params,`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`arrival_time=time.time(),`
			`)`

			`return seq_group`


[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`def create_seq_group_encoder_decoder(`
			`seq_prompt_len: int = 1024,`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`seq_output_lens: GenericSequence[int] = (128, ),`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`request_id: str = '0',`
			`seq_id_start: int = 0,`
			`sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:`

			`assert len(seq_output_lens) > 0`

			`if sampling_params is None:`
			`sampling_params = SamplingParams()`

			`prompt_token_ids = [0] * seq_prompt_len`

[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`inputs = {`
			`"prompt": "",`
			`"prompt_token_ids": prompt_token_ids,`
			`"encoder_prompt": "",`
			`"encoder_prompt_token_ids": prompt_token_ids,`
			`"multi_modal_data": None,`
			`}`

[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`seqs = []`
			`for seq_id_offset, output_len in enumerate(seq_output_lens):`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`# Construct decoder input sequences`
			`seq = Sequence(seq_id=seq_id_start + seq_id_offset,`
			`inputs=inputs,`
			`block_size=16,`
			`from_decoder_prompt=True)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`for i in range(output_len):`
			`seq.append_token_id(`
			`token_id=i,`
			`logprobs={i: Logprob(0.0)},`
			`)`
			`seqs.append(seq)`

[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`# Encoder input sequence`
			`encoder_seq = Sequence(seq_id=seq_id_start + len(seq_output_lens),`
			`inputs=inputs,`
			`block_size=16,`
			`from_decoder_prompt=False)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`return SequenceGroup(request_id=request_id,`
			`seqs=seqs,`
			`sampling_params=sampling_params,`
			`arrival_time=time.time(),`
			`encoder_seq=encoder_seq)`


[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`def round_up_to_next_block(seq_len: int, block_size: int) -> int:`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`return (seq_len + block_size - 1) // block_size`


			`# Helper functions for scheduler tests`


			`def get_sequence_groups(scheduler_output):`
			`return [s.seq_group for s in scheduler_output.scheduled_seq_groups]`


			`def append_new_token(out, token_id: int):`
			`seq_groups = get_sequence_groups(out)`
			`for seq_group in seq_groups:`
			`for seq in seq_group.get_seqs():`
			`seq.append_token_id(token_id, {token_id: Logprob(token_id)})`


			`def schedule_and_update_computed_tokens(scheduler):`
[Core] Asynchronous Output Processor (#7049) Co-authored-by: Alexander Matveev <alexm@neuralmagic.com> 2024-08-26 20:53:20 -07:00			`metas, out, _ = scheduler.schedule()`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`for s, meta in zip(out.scheduled_seq_groups, metas):`
			`s.seq_group.update_num_computed_tokens(meta.token_chunk_size)`
			`return metas, out`


			`def append_new_token_seq_group(token_chunk_size, seq_group, token_id: int):`
			`seq_group.update_num_computed_tokens(token_chunk_size)`
			`for seq in seq_group.get_seqs():`
			`seq.append_token_id(token_id, {token_id: Logprob(token_id)})`