CMake Windows Compilation Succesfull

acpopescu · acpopescu · commit 68da6d806f33 · 2023-03-27T20:08:52.000-04:00
diff --git a/CMakelists.txt b/CMakelists.txt
@@ -0,0 +1,90 @@
+cmake_minimum_required(VERSION 3.8)
+list(APPEND CMAKE_PREFIX_PATH $CONDA_PREFIX)
+
+project(bitsandbytes LANGUAGES CXX CUDA)
+
+set(CXX_STANDARD_REQUIRED C++14)
+set(FILES_CUDA csrc/ops.cu csrc/kernels.cu)
+set(FILES_CPP csrc/common.cpp csrc/cpu_ops.cpp csrc/pythonInterface.c)
+
+option(MAKE_CUDA_BUILD "Build using CUDA" ON)
+option(NO_CUBLASLT "Don't use CUBLAST" OFF)
+option(USE_AVX2 "Enable AVX2 for CPU side" ON)
+
+set(COMPUTE_CAPABILITY 
+        "-gencode arch=compute_50,code=sm_50"
+        "-gencode arch=compute_52,code=sm_52" # Maxwell
+        "-gencode arch=compute_60,code=sm_60" # Pascal
+        "-gencode arch=compute_61,code=sm_61" # Pascal
+        "-gencode arch=compute_70,code=sm_70" # Volta
+        "-gencode arch=compute_72,code=sm_72" # Volta
+    )
+
+set(CC_KEPLER 
+    "-gencode arch=compute_35,code=sm_35"
+        "-gencode arch=compute_37,code=sm_37")
+# Later versions of CUDA support the new architectures
+set(CC_CUDA10x 
+    "-gencode arch=compute_75,code=sm_75")
+
+set(CC_CUDA110 
+    "-gencode arch=compute_75,code=sm_75"
+    "-gencode arch=compute_80,code=sm_80")
+set(CC_CUDA11x 
+    "-gencode arch=compute_75,code=sm_75"
+    "-gencode arch=compute_80,code=sm_80"
+    "-gencode arch=compute_86,code=sm_86")
+set(CC_cublasLt110 
+    "-gencode arch=compute_75,code=sm_75"
+    "-gencode arch=compute_80,code=sm_80")
+
+set(CC_cublasLt111 
+    "-gencode arch=compute_75,code=sm_75"
+    "-gencode arch=compute_80,code=sm_80"
+    "-gencode arch=compute_86,code=sm_86")
+set(CC_ADA_HOPPER
+    "-gencode arch=compute_89,code=sm_89"
+    "-gencode arch=compute_90,code=sm_90"
+)
+
+if( MAKE_CUDA_BUILD ) 
+    if(NOT DEFINED CMAKE_CUDA_ARCHITECTURES)
+        set(CMAKE_CUDA_ARCHITECTURES 75 80 86)
+    endif()
+    set(ADDITIONAL_CUDA_FLAGS "--use_fast_math")
+    set(CMAKE_CUDA_FLAGS "${CMAKE_CUDA_FLAGS} ${ADDITIONAL_CUDA_FLAGS}")
+    
+    if(NOT DEFINED CMAKE_CUDA_STANDARD)
+        set(CMAKE_CUDA_STANDARD 11)
+        set(CMAKE_CUDA_STANDARD_REQUIRED ON)
+    endif()
+
+    add_library(libbitsandbytes_cuda SHARED 
+        ${FILES_CPP}
+        ${FILES_CUDA}
+    )
+    add_definitions(-DBUILD_CUDA)
+    if(NO_CUBLASLT)
+        add_definitions(-DNO_CUBLASLT)
+    endif(NO_CUBLASLT)
+    if(USE_AVX2)
+        add_definitions(-DUSE_AVX2 -DUSE_AVX)
+    endif(USE_AVX2)
+    set_target_properties(libbitsandbytes_cuda PROPERTIES
+                                CUDA_SEPARABLE_COMPILATION ON)
+    set_target_properties(libbitsandbytes_cuda PROPERTIES POSITION_INDEPENDENT_CODE ON)
+
+    target_include_directories(libbitsandbytes_cuda PRIVATE
+        "${PROJECT_SOURCE_DIR}/csrc/"
+        "${PROJECT_SOURCE_DIR}/include/"
+    )
+    target_link_libraries(libbitsandbytes_cuda PRIVATE 
+        cudart
+        cublas
+        cublasLt
+        curand
+        cusparse
+    )
+else()   
+endif(MAKE_CUDA_BUILD)     
+
diff --git a/csrc/common.h b/csrc/common.h
@@ -8,7 +8,7 @@ using namespace BinSearch;
 #define BLOCK_SIZE 16384
 
 struct quantize_block_args {
-    BinAlgo<Scalar, float, Direct2> *bin_searcher;
+    BinAlgo<AVX, float, Direct2> *bin_searcher;
     float *code;
     float *A;
     float *absmax;
diff --git a/csrc/cpu_ops.cpp b/csrc/cpu_ops.cpp
@@ -1,5 +1,7 @@
 #include <BinSearch.h>
-#include <pthread.h>
+#include <thread>
+#include <vector>
+#include <future>
 #include <common.h>
 
 using namespace BinSearch;
@@ -23,16 +25,16 @@ void quantize_cpu(float *code, float *A, float *absmax, unsigned char *out, long
     num_blocks += n % blocksize == 0 ? 0 : 1;
 
     const uint32 elements_code = 256;
-    BinAlgo<Scalar, float, Direct2> bin_searcher(code, elements_code);
+    BinAlgo<AVX, float, Direct2> bin_searcher(code, elements_code);
 
     int thread_wave_size = 256;
+    std::vector<std::future<void>> wave_storage;
+    wave_storage.reserve(thread_wave_size); // prealloc
     // we chunk the thresds into waves of 256 since the max limit is
     // between 16k and 64k on Linux (we reach this when running BLOOM-176B with a large batch size)
     for(long long offset = 0; offset < num_blocks; offset+=thread_wave_size)
     {
       long long valid_chunks = num_blocks - offset >= thread_wave_size ? thread_wave_size : num_blocks - offset;
-      pthread_t *threads = (pthread_t *) malloc(sizeof(pthread_t) * valid_chunks);
-
       struct quantize_block_args **args = (quantize_block_args **) malloc(valid_chunks * sizeof(quantize_block_args *));
 
       for(long long i = 0; i < valid_chunks; i++)
@@ -55,19 +57,18 @@ void quantize_cpu(float *code, float *A, float *absmax, unsigned char *out, long
           arg->threadidx = block_idx / blocksize;
           arg->blocksize = blocksize;
 
-          pthread_create(&threads[chunks_processed], NULL, &quantize_block, (void *) arg);
+          wave_storage.emplace_back(std::async(std::launch::async, [arg] {quantize_block(arg); }));
           chunks_processed += 1;
           if(chunks_processed == valid_chunks){ break; }
       }
 
-      for (int i = 0; i < valid_chunks; i++)
-          int err = pthread_join(threads[i], NULL);
+      for (int i = 0; i < wave_storage.size(); i++)
+          wave_storage[i].wait();
+      wave_storage.clear();
 
-      free(threads);
       for (int i = 0; i < valid_chunks; i++)
           free(args[i]);
       free(args);
-
     }
 
 }
diff --git a/csrc/kernels.cu b/csrc/kernels.cu
@@ -2663,13 +2663,12 @@ template <int FORMAT> __global__ void kExtractOutliers(char *A, int *idx, char *
 
 template __global__ void kExtractOutliers<COL_TURING>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
 template __global__ void kExtractOutliers<COL_AMPERE>(char *A, int *idx, char *out, int idx_size, int rowsA, int colsA, int tiledRowsA, int tiledColsA);
-
-template __global__ void kspmm_coo_very_sparse_naive<half, 8, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float *dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
-template __global__ void kspmm_coo_very_sparse_naive<half, 16, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float *dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
-template __global__ void kspmm_coo_very_sparse_naive<half, 32, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float *dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
-template __global__ void kspmm_coo_very_sparse_naive<signed char, 8, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float *dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
-template __global__ void kspmm_coo_very_sparse_naive<signed char, 16, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float *dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
-template __global__ void kspmm_coo_very_sparse_naive<signed char, 32, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float *dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
+template __global__ void kspmm_coo_very_sparse_naive<half, 8, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
+template __global__ void kspmm_coo_very_sparse_naive<half, 16, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
+template __global__ void kspmm_coo_very_sparse_naive<half, 32, 16>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, half *B, half *out, float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
+template __global__ void kspmm_coo_very_sparse_naive<signed char, 8, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
+template __global__ void kspmm_coo_very_sparse_naive<signed char, 16, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
+template __global__ void kspmm_coo_very_sparse_naive<signed char, 32, 8>(int *max_count, int *max_idx, int *offset_rowidx, int *rowidx, int *colidx, half *values, signed char *B, half *out, float* __restrict__ const dequant_stats, int nnz, int rowsA, int rowsB, int colsB);
 
 template __global__ void kTransformRowToFormat<256, 8, 32, 32*8, 0, COL32>(char *__restrict__ const A, char *out, int rows, int cols, int tiledCols, int outRows, int outCols);
 template __global__ void kTransformRowToFormat<256, 8, 32, 32*8, 1, COL32>(char *__restrict__ const A, char *out, int rows, int cols, int tiledCols, int outRows, int outCols);
diff --git a/csrc/ops.cuh b/csrc/ops.cuh
@@ -9,7 +9,9 @@
 
 #include <stdio.h>
 #include <iostream>
+#if !defined(_MSC_VER) && !defined(_WIN32)
 #include <unistd.h>
+#endif
 #include <assert.h>
 
 #include <cuda_runtime_api.h>