[Bugfix] MLPSpeculator: Use ParallelLMHead in tie_weights=False case. (#6303)

Signed-off-by: Thomas Parnell <tpa@zurich.ibm.com>
2024-07-10 15:04:07 +02:00 · 2024-07-10 15:04:07 +02:00 · c38eba3046
commit c38eba3046
parent e72ae80b06
1 changed files with 1 additions and 1 deletions
--- a/vllm/model_executor/models/mlp_speculator.py
+++ b/vllm/model_executor/models/mlp_speculator.py
@ -110,7 +110,7 @@ class MLPSpeculator(nn.Module):
            ])

            self.head = nn.ModuleList([
-                nn.Linear(self.inner_dim, self.vocab_size, bias=False)
+                ParallelLMHead(self.vocab_size, self.inner_dim, bias=False)
                for _ in range(self.max_speculative_tokens)
            ])
            self.ln = nn.ModuleList([