vllm/model_executor at 33e0823de583819f39e88c39ea3f7dd4e07c3990 - vllm - Luminance Code Repo

20231088/vllm

History

Jinzhen Lin 33e0823de5

[Bugfix] fix rope error when load models with different dtypes (#4835 )

2024-05-17 18:43:34 +09:00

..

guided_decoding

Allow user to define whitespace pattern for outlines (#4305 )

2024-04-30 20:48:39 -07:00

[Bugfix] fix rope error when load models with different dtypes (#4835 )

2024-05-17 18:43:34 +09:00

[Core] Implement sharded state loader (#4690 )

2024-05-15 22:11:54 -07:00

[Bugfix] Fix dynamic FP8 quantization for Mixtral (#4793 )

2024-05-13 19:00:27 -04:00

__init__.py

[Core] Refactor Attention Take 2 (#3462 )

2024-03-25 04:39:33 +00:00

pooling_metadata.py

[Model][Misc] Add e5-mistral-7b-instruct and Embedding API (#3734 )

2024-05-11 11:30:37 -07:00

sampling_metadata.py

[Core][Model runner refactoring 1/N] Refactor attn metadata term (#4518 )

2024-05-03 10:20:12 -07:00

utils.py

[Hardware][Neuron] Refactor neuron support (#3471 )

2024-03-22 01:22:17 +00:00