vllm/quantization.cpp at e3e79e9e8a2224e03a711c3d1ef7a35daa447083 - vllm - Luminance Code Repo

20231088/vllm

Woosuk Kwon e3e79e9e8a

Implement AWQ quantization support for LLaMA (#1032 )

Co-authored-by: Robert Irvine <robert@seamlessml.com>
Co-authored-by: root <rirv938@gmail.com>
Co-authored-by: Casper <casperbh.96@gmail.com>
Co-authored-by: julian-q <julianhquevedo@gmail.com>

2023-09-16 00:03:37 -07:00

16 lines

303 B

C++

Raw Blame History

 #include <torch/extension.h>
 torch::Tensor awq_gemm(
   torch::Tensor _in_feats,
   torch::Tensor _kernel,
   torch::Tensor _scaling_factors,
   torch::Tensor _zeros,
   int split_k_iters);
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def(
     "awq_gemm",
     &awq_gemm,
     "Quantized GEMM for AWQ");
 }