vllm/tests/spec_decode/test_utils.py

from unittest.mock import MagicMock

import pytest
import torch

from vllm.model_executor.layers.rejection_sampler import RejectionSampler
from vllm.model_executor.layers.sampler import _get_ranks
from vllm.model_executor.layers.typical_acceptance_sampler import (
    TypicalAcceptanceSampler)
from vllm.sequence import SequenceGroupMetadata, get_all_seq_ids
from vllm.spec_decode.util import (get_sampled_token_logprobs,
                                   split_batch_by_proposal_len)


def test_get_all_seq_ids():
    """Verify get_all_seq_ids extracts all seq ids.
    """
    expected_seq_ids = list(range(10)) + list(range(100, 110))

    seq_group_metadata_list = [
        SequenceGroupMetadata(
            request_id=str(seq_id),
            is_prompt=True,
            seq_data={
                seq_id: MagicMock(),
            },
            sampling_params=MagicMock(),
            block_tables={
                seq_id: MagicMock(),
            },
            lora_request=None,
        ) for seq_id in expected_seq_ids
    ]

    actual_seq_ids = get_all_seq_ids(seq_group_metadata_list)
    assert actual_seq_ids == expected_seq_ids


@pytest.fixture
def fake_sequence_group_metadata():
    seq_ids = list(range(3))
    return [
        SequenceGroupMetadata(
            request_id=str(i),
            is_prompt=True,
            seq_data={
                i: MagicMock(),
            },
            sampling_params=MagicMock(),
            block_tables={
                i: MagicMock(),
            },
            lora_request=None,
        ) for i in seq_ids
    ]


def test_filter_zero_length_proposals(fake_sequence_group_metadata):
    proposal_lens = [0, 1, 0]
    _, (filtered_groups,
        indices) = split_batch_by_proposal_len(fake_sequence_group_metadata,
                                               proposal_lens)

    expected_groups = [
        fake_sequence_group_metadata[0], fake_sequence_group_metadata[2]
    ]
    expected_indices = [0, 2]

    assert filtered_groups == expected_groups
    assert indices == expected_indices


def test_filter_non_zero_length_proposals(fake_sequence_group_metadata):
    proposal_lens = [0, 1, 2]
    (filtered_groups,
     indices), _ = split_batch_by_proposal_len(fake_sequence_group_metadata,
                                               proposal_lens)

    expected_groups = [
        fake_sequence_group_metadata[1], fake_sequence_group_metadata[2]
    ]
    expected_indices = [1, 2]

    assert filtered_groups == expected_groups
    assert indices == expected_indices


def test_empty_inputs():
    _, (filtered_groups, indices) = split_batch_by_proposal_len([], [])

    assert filtered_groups == []
    assert indices == []


def test_all_zero_with_non_zero_filter(fake_sequence_group_metadata):
    proposal_lens = [0, 0, 0]
    (filtered_groups,
     indices), _ = split_batch_by_proposal_len(fake_sequence_group_metadata,
                                               proposal_lens)

    assert filtered_groups == []
    assert indices == []


def test_all_non_zero_with_zero_filter(fake_sequence_group_metadata):
    proposal_lens = [1, 1, 1]
    _, (filtered_groups,
        indices) = split_batch_by_proposal_len(fake_sequence_group_metadata,
                                               proposal_lens)

    assert filtered_groups == []
    assert indices == []


def mock_spec_decode_sampler(acceptance_sampler_method):
    """
    Returns either a RejectionSampler or TypicalAcceptanceSampler
    object depending on whether acceptance_sampler_method is 
    'rejection_sampler' or 'typical_acceptance_sampler' respectively.
    """
    if acceptance_sampler_method == "rejection_sampler":
        sampler = MagicMock(spec=RejectionSampler)
        sampler.token_id_dtype = torch.int64
        return sampler
    elif acceptance_sampler_method == "typical_acceptance_sampler":
        sampler = MagicMock(spec=TypicalAcceptanceSampler)
        sampler.token_id_dtype = torch.int64
        return sampler
    else:
        raise ValueError(f"Invalid sampler name {acceptance_sampler_method}")


def test_get_sampled_token_logprobs():
    """Verify get_sampled_token_logprobs returns consistent rankings 
    with regular get_ranks when probabilities match exactly.
    """
    logprob_tensor = torch.tensor(
        [[[-.1, -.1]] * 2])  # shape (num_steps, batch_size, vocab_size)
    sampled_token_tensor = torch.tensor([[1,
                                          0]])  # shape (num_steps, batch_size)
    ranks_spec_dec, _ = get_sampled_token_logprobs(logprob_tensor,
                                                   sampled_token_tensor)

    ranks_regular = _get_ranks(logprob_tensor.reshape((2, -1)),
                               sampled_token_tensor.reshape(-1))

    assert torch.equal(ranks_spec_dec.reshape(-1), ranks_regular)
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00			`from unittest.mock import MagicMock`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00
			`import pytest`
[Speculative Decoding 2/2 ] Integrate typical acceptance sampler into Spec Decode Worker (#5348) 2024-07-01 00:33:05 -07:00			`import torch`
[CI] Try introducing isort. (#3495) 2024-03-25 23:59:47 +09:00
[Speculative Decoding 2/2 ] Integrate typical acceptance sampler into Spec Decode Worker (#5348) 2024-07-01 00:33:05 -07:00			`from vllm.model_executor.layers.rejection_sampler import RejectionSampler`
[Bugfix] Unify rank computation across regular decoding and speculative decoding (#7899) 2024-08-29 07:18:13 +02:00			`from vllm.model_executor.layers.sampler import _get_ranks`
[Speculative Decoding 2/2 ] Integrate typical acceptance sampler into Spec Decode Worker (#5348) 2024-07-01 00:33:05 -07:00			`from vllm.model_executor.layers.typical_acceptance_sampler import (`
			`TypicalAcceptanceSampler)`
[Model] MLPSpeculator speculative decoding support (#4947) Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Thomas Parnell <tpa@zurich.ibm.com> Co-authored-by: Nick Hill <nickhill@us.ibm.com> Co-authored-by: Davis Wertheimer <Davis.Wertheimer@ibm.com> 2024-06-20 20:23:12 -04:00			`from vllm.sequence import SequenceGroupMetadata, get_all_seq_ids`
[Bugfix] Unify rank computation across regular decoding and speculative decoding (#7899) 2024-08-29 07:18:13 +02:00			`from vllm.spec_decode.util import (get_sampled_token_logprobs,`
			`split_batch_by_proposal_len)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00

			`def test_get_all_seq_ids():`
			`"""Verify get_all_seq_ids extracts all seq ids.`
			`"""`
			`expected_seq_ids = list(range(10)) + list(range(100, 110))`

			`seq_group_metadata_list = [`
			`SequenceGroupMetadata(`
			`request_id=str(seq_id),`
			`is_prompt=True,`
			`seq_data={`
			`seq_id: MagicMock(),`
			`},`
			`sampling_params=MagicMock(),`
			`block_tables={`
			`seq_id: MagicMock(),`
			`},`
			`lora_request=None,`
			`) for seq_id in expected_seq_ids`
			`]`

			`actual_seq_ids = get_all_seq_ids(seq_group_metadata_list)`
			`assert actual_seq_ids == expected_seq_ids`


			`@pytest.fixture`
			`def fake_sequence_group_metadata():`
			`seq_ids = list(range(3))`
			`return [`
			`SequenceGroupMetadata(`
			`request_id=str(i),`
			`is_prompt=True,`
			`seq_data={`
			`i: MagicMock(),`
			`},`
			`sampling_params=MagicMock(),`
			`block_tables={`
			`i: MagicMock(),`
			`},`
			`lora_request=None,`
			`) for i in seq_ids`
			`]`


			`def test_filter_zero_length_proposals(fake_sequence_group_metadata):`
			`proposal_lens = [0, 1, 0]`
[Spec Decoding] Streamline batch expansion tensor manipulation (#7851) 2024-08-25 15:45:14 -07:00			`_, (filtered_groups,`
			`indices) = split_batch_by_proposal_len(fake_sequence_group_metadata,`
			`proposal_lens)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00
			`expected_groups = [`
			`fake_sequence_group_metadata[0], fake_sequence_group_metadata[2]`
			`]`
			`expected_indices = [0, 2]`

			`assert filtered_groups == expected_groups`
			`assert indices == expected_indices`


			`def test_filter_non_zero_length_proposals(fake_sequence_group_metadata):`
			`proposal_lens = [0, 1, 2]`
[Spec Decoding] Streamline batch expansion tensor manipulation (#7851) 2024-08-25 15:45:14 -07:00			`(filtered_groups,`
			`indices), _ = split_batch_by_proposal_len(fake_sequence_group_metadata,`
			`proposal_lens)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00
			`expected_groups = [`
			`fake_sequence_group_metadata[1], fake_sequence_group_metadata[2]`
			`]`
			`expected_indices = [1, 2]`

			`assert filtered_groups == expected_groups`
			`assert indices == expected_indices`


			`def test_empty_inputs():`
[Spec Decoding] Streamline batch expansion tensor manipulation (#7851) 2024-08-25 15:45:14 -07:00			`_, (filtered_groups, indices) = split_batch_by_proposal_len([], [])`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00
			`assert filtered_groups == []`
			`assert indices == []`


			`def test_all_zero_with_non_zero_filter(fake_sequence_group_metadata):`
			`proposal_lens = [0, 0, 0]`
[Spec Decoding] Streamline batch expansion tensor manipulation (#7851) 2024-08-25 15:45:14 -07:00			`(filtered_groups,`
			`indices), _ = split_batch_by_proposal_len(fake_sequence_group_metadata,`
			`proposal_lens)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00
			`assert filtered_groups == []`
			`assert indices == []`


			`def test_all_non_zero_with_zero_filter(fake_sequence_group_metadata):`
			`proposal_lens = [1, 1, 1]`
[Spec Decoding] Streamline batch expansion tensor manipulation (#7851) 2024-08-25 15:45:14 -07:00			`_, (filtered_groups,`
			`indices) = split_batch_by_proposal_len(fake_sequence_group_metadata,`
			`proposal_lens)`
[Speculative decoding 3/9] Worker which speculates, scores, and applies rejection sampling (#3103) 2024-03-08 23:32:46 -08:00
			`assert filtered_groups == []`
			`assert indices == []`
[Speculative Decoding 2/2 ] Integrate typical acceptance sampler into Spec Decode Worker (#5348) 2024-07-01 00:33:05 -07:00

			`def mock_spec_decode_sampler(acceptance_sampler_method):`
			`"""`
			`Returns either a RejectionSampler or TypicalAcceptanceSampler`
			`object depending on whether acceptance_sampler_method is`
			`'rejection_sampler' or 'typical_acceptance_sampler' respectively.`
			`"""`
			`if acceptance_sampler_method == "rejection_sampler":`
			`sampler = MagicMock(spec=RejectionSampler)`
			`sampler.token_id_dtype = torch.int64`
			`return sampler`
			`elif acceptance_sampler_method == "typical_acceptance_sampler":`
			`sampler = MagicMock(spec=TypicalAcceptanceSampler)`
			`sampler.token_id_dtype = torch.int64`
			`return sampler`
			`else:`
			`raise ValueError(f"Invalid sampler name {acceptance_sampler_method}")`
[Bugfix] Unify rank computation across regular decoding and speculative decoding (#7899) 2024-08-29 07:18:13 +02:00

			`def test_get_sampled_token_logprobs():`
			`"""Verify get_sampled_token_logprobs returns consistent rankings`
			`with regular get_ranks when probabilities match exactly.`
			`"""`
			`logprob_tensor = torch.tensor(`
			`[[[-.1, -.1]] * 2]) # shape (num_steps, batch_size, vocab_size)`
			`sampled_token_tensor = torch.tensor([[1,`
			`0]]) # shape (num_steps, batch_size)`
			`ranks_spec_dec, _ = get_sampled_token_logprobs(logprob_tensor,`
			`sampled_token_tensor)`

			`ranks_regular = _get_ranks(logprob_tensor.reshape((2, -1)),`
			`sampled_token_tensor.reshape(-1))`

			`assert torch.equal(ranks_spec_dec.reshape(-1), ranks_regular)`