vllm/tests/weight_loading/models-large.txt

compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-quantized, main
compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-channel-quantized, main
compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W8A16-quantized, main
compressed-tensors, nm-testing/test-w4a16-mixtral-actorder-group, main
gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, main
gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, gptq-8bit-128g-actorder_True
awq_marlin, casperhansen/deepseek-coder-v2-instruct-awq, main
[Misc] Fused MoE Marlin support for GPTQ (#8217) 2024-09-09 23:02:52 -04:00			`compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-quantized, main`
			`compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W4A16-channel-quantized, main`
[Kernel] Enable 8-bit weights in Fused Marlin MoE (#8032) Co-authored-by: Dipika <dipikasikka1@gmail.com> 2024-09-16 17:47:19 +02:00			`compressed-tensors, nm-testing/Mixtral-8x7B-Instruct-v0.1-W8A16-quantized, main`
[Misc] Update w2 scale loading for GPTQMarlinMoE (#12757) 2025-02-06 04:02:14 -05:00			`compressed-tensors, nm-testing/test-w4a16-mixtral-actorder-group, main`
[Kernel] Enable 8-bit weights in Fused Marlin MoE (#8032) Co-authored-by: Dipika <dipikasikka1@gmail.com> 2024-09-16 17:47:19 +02:00			`gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, main`
[Misc] Update w2 scale loading for GPTQMarlinMoE (#12757) 2025-02-06 04:02:14 -05:00			`gptq_marlin, TheBloke/Mixtral-8x7B-v0.1-GPTQ, gptq-8bit-128g-actorder_True`
[Kernel] Zero point support in fused MarlinMoE kernel + AWQ Fused MoE (#8973) Co-authored-by: Dipika <dipikasikka1@gmail.com> Co-authored-by: Dipika Sikka <ds3822@columbia.edu> 2024-10-04 20:34:44 +02:00			`awq_marlin, casperhansen/deepseek-coder-v2-instruct-awq, main`