vllm/cutlass_w8a8 at main - vllm - Luminance Code Repo

20231088/vllm

History

[Kernel] CUTLASS grouped gemm fp8 MoE kernel (#13972 )

Signed-off-by: ElizaWszola <eliza@neuralmagic.com>
Signed-off-by: ElizaWszola <ewszola@redhat.com>
Co-authored-by: Lucas Wilkinson <wilkinson.lucas@gmail.com>

2025-03-27 00:54:44 +00:00

c3x

add cutlass support for blackwell fp8 gemm (#13798 )

2025-03-04 07:55:07 -08:00

moe

[Kernel] CUTLASS grouped gemm fp8 MoE kernel (#13972 )

2025-03-27 00:54:44 +00:00

Epilogues.md

[CI/Build] Auto-fix Markdown files (#12941 )

2025-02-08 04:25:15 -08:00

scaled_mm_c2x_sm75_dispatch.cuh

[Kernel] Tuned int8 Cutlass Kernels for SM75 (T4) (#6996 )

2024-07-31 14:40:32 -07:00

scaled_mm_c2x_sm80_dispatch.cuh

[Kernel] Tuned FP8 Kernels for Ada Lovelace (#6677 )

2024-07-29 09:42:35 -06:00

scaled_mm_c2x_sm89_fp8_dispatch.cuh

[Kernel] Tuned int8 kernels for Ada Lovelace (#6848 )

2024-07-29 20:24:58 -06:00

scaled_mm_c2x_sm89_int8_dispatch.cuh

[Kernel] Tuned int8 kernels for Ada Lovelace (#6848 )

2024-07-29 20:24:58 -06:00

scaled_mm_c2x.cu

[MISC] Replace c10::optional with std::optional (#11730 )

2025-01-05 10:20:34 +09:00

scaled_mm_c2x.cuh

[Kernel][Bugfix] Refactor and Fix CUTLASS 2:4 Sparse Kernels (#13198 )

2025-02-14 00:01:14 +00:00

scaled_mm_c3x_sm90.cu

[Build/BugFix] Fix hopper 12.8 build (#14354 )

2025-03-08 08:11:56 +00:00

scaled_mm_c3x_sm100.cu

[Build/BugFix] Fix hopper 12.8 build (#14354 )

2025-03-08 08:11:56 +00:00

scaled_mm_entry.cu

[Kernel] CUTLASS grouped gemm fp8 MoE kernel (#13972 )

2025-03-27 00:54:44 +00:00