20231088/vllm - vllm - Luminance Code Repo

20231088/vllm

Author	SHA1	Message	Date
Lucas Wilkinson	7eb4255628	[BugFix] Accuracy fix for llama4 int4 - improperly casted scales (#16801 ) Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com>	2025-04-17 22:13:29 -07:00
DefTruth	e82ee40de3	[Bugfix][Kernel] fix potential cuda graph broken for merge_attn_states kernel (#16693 ) Signed-off-by: DefTruth <qiustudent_r@163.com>	2025-04-16 03:31:39 -07:00
Jinzhen Lin	d06ba4ed3f	[Kernel] moe wna16 marlin kernel (#14447 ) Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com> Co-authored-by: Michael Goin <michael@neuralmagic.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-04-14 20:05:22 -07:00
Tianer Zhou	4a3a518722	fix: spelling (#16466 ) Signed-off-by: Tianer Zhou <ezhoureal@gmail.com>	2025-04-11 23:24:22 -07:00
DefTruth	e9528f6dc6	[Kernel] support merge_attn_states CUDA kernel, 3x speedup (#16173 ) Signed-off-by: DefTruth <qiustudent_r@163.com>	2025-04-11 06:50:50 -06:00
yihong	04149cce27	[BugFix] fix some typos found by typos. (#16314 ) Signed-off-by: yihong0618 <zouzou0208@gmail.com>	2025-04-09 03:43:59 -07:00
rongfu.leng	4e9cf8c1dd	[Bugfix] fix gettid method is not define (#16084 ) Signed-off-by: rongfu.leng <rongfu.leng@daocloud.io>	2025-04-08 19:12:44 -07:00
TY-AMD	9351f91be9	[BugFix][ROCm] Fix GGUF MoE Dispatch Block_Dim for ROCm (#16247 ) Signed-off-by: Tianyuan Wu <Tianyuan.Wu@amd.com>	2025-04-08 05:10:26 -07:00
Jinzhen Lin	2fa66ef713	[Bugfix] fix use_atomic_add support of marlin kernel when using v1 engine (#15946 ) Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com>	2025-04-05 20:04:22 -07:00
Isotr0py	230b131b54	[Bugfix][kernels] Fix half2float conversion in gguf kernels (#15995 ) Signed-off-by: Isotr0py <2037008807@qq.com>	2025-04-04 09:38:58 -07:00
Aleksandr Malyshev	e73ff24e31	[ROCM][KERNEL] Paged attention for V1 (#15720 ) Signed-off-by: Aleksandr Malyshev <maleksan@amd.com> Signed-off-by: root <root@banff-cyxtera-s65-4.amd.com> Co-authored-by: Aleksandr Malyshev <maleksan@amd.com> Co-authored-by: root <root@banff-cyxtera-s65-4.amd.com>	2025-04-02 19:48:00 -07:00
Li, Jiang	550b2801ad	[CPU][Bugfix] Using custom allreduce for CPU backend (#15934 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-04-02 07:46:47 -07:00
LukasBluebaum	90969fb39a	[Kernel] Add more dtype support for GGUF dequantization (#15879 ) Signed-off-by: lukas.bluebaum <lukas.bluebaum@aleph-alpha.com>	2025-04-02 01:58:48 -07:00
Ilya Markov	b7b7676d67	[Distributed] Add custom allreduce support for ROCM (#14125 ) Signed-off-by: ilmarkov <imarkov@redhat.com> Co-authored-by: ilmarkov <imarkov@redhat.com>	2025-03-31 22:49:12 -07:00
youkaichao	555aa21905	[V1] Fully Transparent Implementation of CPU Offloading (#15354 ) Signed-off-by: youkaichao <youkaichao@gmail.com>	2025-03-31 20:22:34 +08:00
Charlie Fu	e85829450d	[Feature][ROCm]Enable fusion pass for torch.compile on ROCm (#15050 ) Signed-off-by: charlifu <charlifu@amd.com>	2025-03-31 04:42:18 -07:00
ElizaWszola	9239bf718e	[Kernel] CUTLASS grouped gemm fp8 MoE kernel (#13972 ) Signed-off-by: ElizaWszola <eliza@neuralmagic.com> Signed-off-by: ElizaWszola <ewszola@redhat.com> Co-authored-by: Lucas Wilkinson <wilkinson.lucas@gmail.com>	2025-03-27 00:54:44 +00:00
Szymon Ożóg	a608160027	[Kernel] Fix conflicting macro names for gguf kernels (#15456 ) Signed-off-by: SzymonOzog <szymon.ozog@gmail.com>	2025-03-25 13:50:49 +00:00
Thien Tran	4f044b1d67	[Kernel][CPU] CPU MLA (#14744 ) Signed-off-by: Thien Tran <gau.nernst@yahoo.com.sg>	2025-03-25 09:34:59 +00:00
Lu Fang	051da7efe3	Fix CUDA kernel index data type in vllm/csrc/quantization/gptq_marlin/awq_marlin_repack.cu +10 (#15160 ) Signed-off-by: Lu Fang <lufang@fb.com> Co-authored-by: Richard Barnes <rbarnes@meta.com>	2025-03-25 15:36:45 +08:00
Jinzhen Lin	6b3cc75be0	[Kernel] allow non-contiguous input for marlin kernel (#14658 ) Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com>	2025-03-24 09:21:33 -04:00
Lu Fang	d3ccbd6350	Fix CUDA kernel index data type in vllm/csrc/quantization/fused_kernels/layernorm_utils.cuh +10 (#15159 ) Signed-off-by: Lu Fang <lufang@fb.com> Co-authored-by: Richard Barnes <rbarnes@meta.com>	2025-03-21 10:01:11 +08:00
Serena	64fc2193dc	[Misc][Docs] fix the comments of KV_T and CACHE_T in CALL_RESHAPE_AND_CACHE_XX macros (#14347 )	2025-03-18 05:50:19 -07:00
Lu Fang	cd0cd85102	[MISC] More AMD unused var clean up (#14926 ) Signed-off-by: Lu Fang <lufang@fb.com>	2025-03-17 16:40:41 +08:00
Li, Jiang	a2ae496589	[CPU] Support FP8 KV cache (#14741 ) Signed-off-by: jiang1.li <jiang1.li@intel.com>	2025-03-14 22:07:36 -07:00
Lu Fang	8c0d15d5c5	[Misc][Easy] Annotate unused vars in the csrc files (#14798 ) Signed-off-by: Lu Fang <lufang@fb.com>	2025-03-15 12:40:09 +08:00
Yajie Wang	977a16772c	[Bugfix][Kernel]: Fix AllSpark kernel compilation errors and enable for CUDA < 12.0 (#14430 ) Signed-off-by: wyj371990 <wyj371990@alibaba-inc.com>	2025-03-14 09:55:14 -07:00
DefTruth	40253bab44	[Bugfix][W8A8] fixed cutlass block fp8 binding (#14796 )	2025-03-14 03:32:42 -07:00
Thien Tran	27b50f1fe6	[Bugfix][Kernel][CPU] Fix num_tokens in CPU rotary embedding kernel (#14667 ) Signed-off-by: Thien Tran <gau.nernst@yahoo.com.sg>	2025-03-13 23:47:49 -07:00
Jeff Daily	2a602b055a	forward fix PR 14245, restore build on ROCm 6.2 (#14709 ) Signed-off-by: Jeff Daily <jeff.daily@amd.com>	2025-03-13 20:40:15 -07:00
TJian	916836bbfb	[FEAT] [ROCm] [Embedding] Add encoder-only model support into ROCm Flash Attention to enable embedding models. (#14664 ) Signed-off-by: tjtanaa <tunjian.tan@embeddedllm.com>	2025-03-12 09:31:19 -07:00
Sage Moore	45f3f3f59e	[ROCm][Bugfix] Ensure that the moe_wna16_gemm kernel is not built on ROCm platforms. (#14629 ) Signed-off-by: Sage Moore <sage@neuralmagic.com>	2025-03-12 08:00:28 -04:00
Pavani Majety	debd6bbf09	[Kernel] Add ModelOpt FP4 Checkpoint Support (#12520 ) Signed-off-by: Pavani Majety <pmajety@nvidia.com>	2025-03-12 05:13:11 +00:00
Szymon Ożóg	e22ee1e7a2	[Kernel] GGUF MoE kernel (#14613 ) Signed-off-by: SzymonOzog <szymon.ozog@aleph-alpha.com>	2025-03-12 03:33:27 +00:00
Lucas Wilkinson	07b4b7a37f	[BugFix/Build] Fix sparse kernels not getting built on hopper (#14572 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com>	2025-03-11 17:09:03 +00:00
Jeff Daily	a1c8f3796c	dynamic distpatch of fp8 kernels (#14245 ) Signed-off-by: Jeff Daily <jeff.daily@amd.com>	2025-03-11 10:54:56 -04:00
Jinzhen Lin	90e88ab756	[Kernel] moe wna16 cuda kernel (#13321 ) Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com> Co-authored-by: mgoin <mgoin64@gmail.com>	2025-03-10 20:12:40 -04:00
Szymon Ożóg	89cdaa83e7	[Kernel] Add more dtype support for GGUF kernels (#14043 ) Signed-off-by: SzymonOzog <szymon.ozog@aleph-alpha.com> Signed-off-by: SzymonOzog <szymon.ozog@gmail.com>	2025-03-10 07:30:04 -07:00
Lucas Wilkinson	7caff01a7b	[Build/BugFix] Fix hopper 12.8 build (#14354 ) Signed-off-by: Lucas Wilkinson <lwilkins@redhat.com> Signed-off-by: Lucas Wilkinson <lwilkinson@neuralmagic.com> Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com> Co-authored-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-03-08 08:11:56 +00:00
Jinzhen Lin	d0feea31c7	[Kernel] optimize performance of gptq marlin kernel when n is small (#14138 ) Signed-off-by: Jinzhen Lin <linjinzhen@hotmail.com>	2025-03-07 11:53:38 -05:00
Lucas Wilkinson	e5e03c2c1b	[BugFix] Illegal Memory Access in the blockwise cutlass fp8 GEMMs (#14396 )	2025-03-06 21:56:06 -08:00
Tyler Michael Smith	99b0915d3b	[Kernel] Add needs_fixed_stride_order tag to most GEMMs (#14306 ) Signed-off-by: Tyler Michael Smith <tyler@neuralmagic.com>	2025-03-06 14:17:09 -08:00
Dilip Gowda Bhagavan	ada19210a3	Adding cpu inference with VXE ISA for s390x architecture (#12613 ) Signed-off-by: Dilip Gowda Bhagavan <dilip.bhagavan@ibm.com> Signed-off-by: Rishika Kedia <rishika.kedia@in.ibm.com> Co-authored-by: Rishika Kedia <rishika.kedia@in.ibm.com>	2025-03-06 08:40:53 -08:00
kushanam	f89978ad7c	add cutlass support for blackwell fp8 gemm (#13798 )	2025-03-04 07:55:07 -08:00
TJian	848a6438ae	[ROCm] Faster Custom Paged Attention kernels (#12348 )	2025-03-03 09:24:45 -08:00
Sheng Yao	09e56f9262	[Bugfix] Explicitly include "omp.h" for MacOS to avoid installation failure (#14051 )	2025-03-02 17:35:01 -08:00
Harry Mellor	cf069aa8aa	Update deprecated Python 3.8 typing (#13971 )	2025-03-02 17:34:51 -08:00
YajieWang	6a92ff93e1	[Misc][Kernel]: Add GPTQAllSpark Quantization (#12931 )	2025-02-28 22:30:59 -08:00
Sage Moore	378b3ef6f8	[ROCm][V1] Update reshape_and_cache to properly work with CUDA graph padding (#13922 )	2025-02-26 20:04:12 -08:00
ℍ𝕠𝕝𝕝𝕠𝕨 𝕄𝕒𝕟	a31614e386	[ROCm][Quantization][Kernel] Use FP8 FNUZ when OCP flag is 0 or undefined (#13851 ) Signed-off-by: Hollow Man <hollowman@opensuse.org>	2025-02-27 10:39:10 +08:00

1 2 3 4 5 ...

354 Commits