vllm/tests/core/utils.py

import time
from typing import List, Optional
from typing import Sequence as GenericSequence
from typing import Tuple

from vllm import SamplingParams
from vllm.inputs import EncoderDecoderInputs, token_inputs
from vllm.lora.request import LoRARequest
from vllm.sequence import Logprob, Sequence, SequenceGroup


def create_dummy_prompt(
    request_id: str,
    prompt_length: int,
    block_size: Optional[int] = None,
    lora_request: Optional[LoRARequest] = None,
    best_of: int = 1,
    prompt_tokens: Optional[List[int]] = None,
    min_tokens: int = 0,
    max_tokens: int = 16,
) -> Tuple[Sequence, SequenceGroup]:
    if not block_size:
        block_size = prompt_length

    if prompt_tokens is None:
        # Create dummy prompt sequence with tokens 0...block_size-1
        # and prompt "0 ... block_size".
        prompt_tokens = list(range(prompt_length))
    prompt_str = " ".join([str(t) for t in prompt_tokens])
    prompt = Sequence(int(request_id),
                      inputs=token_inputs(prompt_tokens, prompt=prompt_str),
                      block_size=block_size)
    seq_group = SequenceGroup(request_id=request_id,
                              seqs=[prompt],
                              arrival_time=time.time(),
                              sampling_params=SamplingParams(
                                  best_of=best_of,
                                  max_tokens=max_tokens,
                                  min_tokens=min_tokens),
                              lora_request=lora_request)

    return prompt, seq_group


def create_dummy_prompt_encoder_decoder(
    request_id: str,
    decoder_prompt_length: int,
    encoder_prompt_length: int,
    block_size: Optional[int] = None,
    lora_request: Optional[LoRARequest] = None,
    best_of: int = 1,
) -> Tuple[Sequence, Sequence, SequenceGroup]:
    if not block_size:
        block_size = decoder_prompt_length

    # Create dummy prompt sequence with tokens 0...block_size-1
    # and prompt "0 ... block_size". Note that the prompt string
    # doesn't actually match the tokens
    decoder_prompt_tokens = list(range(decoder_prompt_length))
    decoder_prompt_str = " ".join([str(t) for t in decoder_prompt_tokens])
    encoder_prompt_tokens = list(reversed(list(range(encoder_prompt_length))))
    encoder_prompt_str = " ".join([str(t) for t in encoder_prompt_tokens])

    inputs: EncoderDecoderInputs = {
        "decoder": token_inputs(decoder_prompt_tokens,
                                prompt=decoder_prompt_str),
        "encoder": token_inputs(encoder_prompt_tokens,
                                prompt=encoder_prompt_str),
    }

    decoder_prompt = Sequence(int(request_id),
                              inputs=inputs["decoder"],
                              block_size=block_size)

    encoder_prompt = Sequence(int(request_id),
                              inputs=inputs["encoder"],
                              block_size=block_size)

    seq_group = SequenceGroup(request_id=request_id,
                              seqs=[decoder_prompt],
                              sampling_params=SamplingParams(best_of=best_of),
                              arrival_time=time.time(),
                              lora_request=lora_request,
                              encoder_seq=encoder_prompt)

    return decoder_prompt, encoder_prompt, seq_group


def create_seq_group(
        seq_prompt_len: int = 1024,
        seq_output_lens: GenericSequence[int] = (128, ),
        request_id: str = '0',
        seq_id_start: int = 0,
        sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:

    assert len(seq_output_lens) > 0

    if sampling_params is None:
        sampling_params = SamplingParams()

    prompt_token_ids = [0] * seq_prompt_len

    seqs: List[Sequence] = []
    for seq_id_offset, output_len in enumerate(seq_output_lens):
        seq = Sequence(
            seq_id=seq_id_start + seq_id_offset,
            inputs=token_inputs(prompt_token_ids),
            block_size=16,
        )

        for i in range(output_len):
            seq.append_token_id(
                token_id=i,
                logprobs={i: Logprob(0.0)},
            )
        seqs.append(seq)

    seq_group = SequenceGroup(
        request_id=request_id,
        seqs=seqs,
        sampling_params=sampling_params,
        arrival_time=time.time(),
    )

    return seq_group


def create_seq_group_encoder_decoder(
        seq_prompt_len: int = 1024,
        seq_output_lens: GenericSequence[int] = (128, ),
        request_id: str = '0',
        seq_id_start: int = 0,
        sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:

    assert len(seq_output_lens) > 0

    if sampling_params is None:
        sampling_params = SamplingParams()

    prompt_token_ids = [0] * seq_prompt_len

    inputs: EncoderDecoderInputs = {
        "decoder": token_inputs(prompt_token_ids),
        "encoder": token_inputs(prompt_token_ids),
    }

    seqs = []
    for seq_id_offset, output_len in enumerate(seq_output_lens):
        # Construct decoder input sequences
        seq = Sequence(
            seq_id=seq_id_start + seq_id_offset,
            inputs=inputs["decoder"],
            block_size=16,
        )

        for i in range(output_len):
            seq.append_token_id(
                token_id=i,
                logprobs={i: Logprob(0.0)},
            )
        seqs.append(seq)

    # Encoder input sequence
    encoder_seq = Sequence(
        seq_id=seq_id_start + len(seq_output_lens),
        inputs=inputs["encoder"],
        block_size=16,
    )

    return SequenceGroup(request_id=request_id,
                         seqs=seqs,
                         sampling_params=sampling_params,
                         arrival_time=time.time(),
                         encoder_seq=encoder_seq)


def round_up_to_next_block(seq_len: int, block_size: int) -> int:
    return (seq_len + block_size - 1) // block_size


# Helper functions for scheduler tests


def get_sequence_groups(scheduler_output):
    return [s.seq_group for s in scheduler_output.scheduled_seq_groups]


def append_new_token(out, token_id: int):
    seq_groups = get_sequence_groups(out)
    for seq_group in seq_groups:
        for seq in seq_group.get_seqs():
            seq.append_token_id(token_id, {token_id: Logprob(token_id)})


def schedule_and_update_computed_tokens(scheduler):
    metas, out, _ = scheduler.schedule()
    for s, meta in zip(out.scheduled_seq_groups, metas):
        s.seq_group.update_num_computed_tokens(meta.token_chunk_size)
    return metas, out


def append_new_token_seq_group(token_chunk_size, seq_group, token_id: int):
    seq_group.update_num_computed_tokens(token_chunk_size)
    for seq in seq_group.get_seqs():
        seq.append_token_id(token_id, {token_id: Logprob(token_id)})
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`import time`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`from typing import List, Optional`
			`from typing import Sequence as GenericSequence`
			`from typing import Tuple`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00
			`from vllm import SamplingParams`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`from vllm.inputs import EncoderDecoderInputs, token_inputs`
[3/N] Refactor scheduler for chunked prefill scheduling (#3550) 2024-04-04 06:13:49 +09:00			`from vllm.lora.request import LoRARequest`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`from vllm.sequence import Logprob, Sequence, SequenceGroup`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00

			`def create_dummy_prompt(`
[3/N] Refactor scheduler for chunked prefill scheduling (#3550) 2024-04-04 06:13:49 +09:00			`request_id: str,`
			`prompt_length: int,`
			`block_size: Optional[int] = None,`
			`lora_request: Optional[LoRARequest] = None,`
			`best_of: int = 1,`
[Bugfix][fast] Fix the get_num_blocks_touched logic (#6849) 2024-08-08 10:43:30 -07:00			`prompt_tokens: Optional[List[int]] = None,`
[Bugfix] Fix incorrect updates to num_computed_tokens in multi-step scheduling (#9038) Co-authored-by: Varun Sundar Rabindranath <varun@neuralmagic.com> 2024-10-06 15:48:11 -04:00			`min_tokens: int = 0,`
			`max_tokens: int = 16,`
[3/N] Refactor scheduler for chunked prefill scheduling (#3550) 2024-04-04 06:13:49 +09:00			`) -> Tuple[Sequence, SequenceGroup]:`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`if not block_size:`
			`block_size = prompt_length`

[Bugfix][fast] Fix the get_num_blocks_touched logic (#6849) 2024-08-08 10:43:30 -07:00			`if prompt_tokens is None:`
			`# Create dummy prompt sequence with tokens 0...block_size-1`
			`# and prompt "0 ... block_size".`
			`prompt_tokens = list(range(prompt_length))`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`prompt_str = " ".join([str(t) for t in prompt_tokens])`
[Core] Consolidate prompt arguments to LLM engines (#4328) Co-authored-by: Roger Wang <ywang@roblox.com> 2024-05-29 04:29:31 +08:00			`prompt = Sequence(int(request_id),`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`inputs=token_inputs(prompt_tokens, prompt=prompt_str),`
[Core] Consolidate prompt arguments to LLM engines (#4328) Co-authored-by: Roger Wang <ywang@roblox.com> 2024-05-29 04:29:31 +08:00			`block_size=block_size)`
[CI] Nits for bad initialization of SeqGroup in testing (#4748) 2024-05-10 16:01:01 -06:00			`seq_group = SequenceGroup(request_id=request_id,`
			`seqs=[prompt],`
			`arrival_time=time.time(),`
			`sampling_params=SamplingParams(`
[Bugfix] Fix incorrect updates to num_computed_tokens in multi-step scheduling (#9038) Co-authored-by: Varun Sundar Rabindranath <varun@neuralmagic.com> 2024-10-06 15:48:11 -04:00			`best_of=best_of,`
			`max_tokens=max_tokens,`
			`min_tokens=min_tokens),`
[CI] Nits for bad initialization of SeqGroup in testing (#4748) 2024-05-10 16:01:01 -06:00			`lora_request=lora_request)`
[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00
			`return prompt, seq_group`


[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`def create_dummy_prompt_encoder_decoder(`
			`request_id: str,`
			`decoder_prompt_length: int,`
			`encoder_prompt_length: int,`
			`block_size: Optional[int] = None,`
			`lora_request: Optional[LoRARequest] = None,`
			`best_of: int = 1,`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`) -> Tuple[Sequence, Sequence, SequenceGroup]:`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`if not block_size:`
			`block_size = decoder_prompt_length`

			`# Create dummy prompt sequence with tokens 0...block_size-1`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`# and prompt "0 ... block_size". Note that the prompt string`
			`# doesn't actually match the tokens`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`decoder_prompt_tokens = list(range(decoder_prompt_length))`
			`decoder_prompt_str = " ".join([str(t) for t in decoder_prompt_tokens])`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`encoder_prompt_tokens = list(reversed(list(range(encoder_prompt_length))))`
			`encoder_prompt_str = " ".join([str(t) for t in encoder_prompt_tokens])`

[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`inputs: EncoderDecoderInputs = {`
			`"decoder": token_inputs(decoder_prompt_tokens,`
			`prompt=decoder_prompt_str),`
			`"encoder": token_inputs(encoder_prompt_tokens,`
			`prompt=encoder_prompt_str),`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`}`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`decoder_prompt = Sequence(int(request_id),`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`inputs=inputs["decoder"],`
			`block_size=block_size)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`encoder_prompt = Sequence(int(request_id),`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`inputs=inputs["encoder"],`
			`block_size=block_size)`

[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`seq_group = SequenceGroup(request_id=request_id,`
			`seqs=[decoder_prompt],`
[core] remove beam search from the core (#9105) 2024-10-06 22:47:04 -07:00			`sampling_params=SamplingParams(best_of=best_of),`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`arrival_time=time.time(),`
			`lora_request=lora_request,`
			`encoder_seq=encoder_prompt)`

			`return decoder_prompt, encoder_prompt, seq_group`


[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`def create_seq_group(`
[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`seq_prompt_len: int = 1024,`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`seq_output_lens: GenericSequence[int] = (128, ),`
[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`request_id: str = '0',`
			`seq_id_start: int = 0,`
			`sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00
			`assert len(seq_output_lens) > 0`

[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`if sampling_params is None:`
			`sampling_params = SamplingParams()`

[Speculative decoding 4/9] Lookahead scheduling for speculative decoding (#3250) 2024-04-01 15:55:24 -07:00			`prompt_token_ids = [0] * seq_prompt_len`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`seqs: List[Sequence] = []`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`for seq_id_offset, output_len in enumerate(seq_output_lens):`
			`seq = Sequence(`
			`seq_id=seq_id_start + seq_id_offset,`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`inputs=token_inputs(prompt_token_ids),`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`block_size=16,`
			`)`

			`for i in range(output_len):`
			`seq.append_token_id(`
			`token_id=i,`
			`logprobs={i: Logprob(0.0)},`
			`)`
			`seqs.append(seq)`

			`seq_group = SequenceGroup(`
			`request_id=request_id,`
			`seqs=seqs,`
[Speculative decoding 6/9] Integrate speculative decoding with LLMEngine (#3894) 2024-04-16 13:09:21 -07:00			`sampling_params=sampling_params,`
[Core][Bugfix]Refactor block manager for better testability (#3492) 2024-03-27 23:59:28 -07:00			`arrival_time=time.time(),`
			`)`

			`return seq_group`


[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`def create_seq_group_encoder_decoder(`
			`seq_prompt_len: int = 1024,`
[mypy] Enable type checking for test directory (#5017) 2024-06-15 12:45:31 +08:00			`seq_output_lens: GenericSequence[int] = (128, ),`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`request_id: str = '0',`
			`seq_id_start: int = 0,`
			`sampling_params: Optional[SamplingParams] = None) -> SequenceGroup:`

			`assert len(seq_output_lens) > 0`

			`if sampling_params is None:`
			`sampling_params = SamplingParams()`

			`prompt_token_ids = [0] * seq_prompt_len`

[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`inputs: EncoderDecoderInputs = {`
			`"decoder": token_inputs(prompt_token_ids),`
			`"encoder": token_inputs(prompt_token_ids),`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`}`

[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00			`seqs = []`
			`for seq_id_offset, output_len in enumerate(seq_output_lens):`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`# Construct decoder input sequences`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`seq = Sequence(`
			`seq_id=seq_id_start + seq_id_offset,`
			`inputs=inputs["decoder"],`
			`block_size=16,`
			`)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`for i in range(output_len):`
			`seq.append_token_id(`
			`token_id=i,`
			`logprobs={i: Logprob(0.0)},`
			`)`
			`seqs.append(seq)`

[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`# Encoder input sequence`
[Core] Make encoder-decoder inputs a nested structure to be more composable (#9604) Signed-off-by: DarkLight1337 <tlleungac@connect.ust.hk> 2024-11-05 10:07:31 +08:00			`encoder_seq = Sequence(`
			`seq_id=seq_id_start + len(seq_output_lens),`
			`inputs=inputs["encoder"],`
			`block_size=16,`
			`)`
[Core] Cross-attention KV caching and memory-management (towards eventual encoder/decoder model support) (#4837) 2024-05-29 12:09:13 -04:00
			`return SequenceGroup(request_id=request_id,`
			`seqs=seqs,`
			`sampling_params=sampling_params,`
			`arrival_time=time.time(),`
			`encoder_seq=encoder_seq)`


[Tests] Add block manager and scheduler tests (#3108) 2024-03-06 11:23:34 +09:00			`def round_up_to_next_block(seq_len: int, block_size: int) -> int:`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`return (seq_len + block_size - 1) // block_size`


			`# Helper functions for scheduler tests`


			`def get_sequence_groups(scheduler_output):`
			`return [s.seq_group for s in scheduler_output.scheduled_seq_groups]`


			`def append_new_token(out, token_id: int):`
			`seq_groups = get_sequence_groups(out)`
			`for seq_group in seq_groups:`
			`for seq in seq_group.get_seqs():`
			`seq.append_token_id(token_id, {token_id: Logprob(token_id)})`


			`def schedule_and_update_computed_tokens(scheduler):`
[Core] Asynchronous Output Processor (#7049) Co-authored-by: Alexander Matveev <alexm@neuralmagic.com> 2024-08-26 20:53:20 -07:00			`metas, out, _ = scheduler.schedule()`
[Core] Subclass ModelRunner to support cross-attention & encoder sequences (towards eventual encoder/decoder model support) (#4942) Co-authored-by: Andrew Feldman <afeld2012@gmail.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> 2024-08-06 16:51:47 -04:00			`for s, meta in zip(out.scheduled_seq_groups, metas):`
			`s.seq_group.update_num_computed_tokens(meta.token_chunk_size)`
			`return metas, out`


			`def append_new_token_seq_group(token_chunk_size, seq_group, token_id: int):`
			`seq_group.update_num_computed_tokens(token_chunk_size)`
			`for seq in seq_group.get_seqs():`
			`seq.append_token_id(token_id, {token_id: Logprob(token_id)})`