ggml : add predefined list of CPU backend variants to build (#10626)

* ggml : add predefined list of CPU backend variants to build * update CPU dockerfiles
2025-02-03 07:13:00 +01:00 · 2024-12-04 14:45:40 +01:00 · 2024-12-04 14:45:40 +01:00 · 59f4db1088
commit 59f4db1088
parent 2803540814
11 changed files with 502 additions and 391 deletions
--- a/.devops/full.Dockerfile
+++ b/.devops/full.Dockerfile
@ -3,23 +3,36 @@ ARG UBUNTU_VERSION=22.04
 FROM ubuntu:$UBUNTU_VERSION AS build
 RUN apt-get update && \
-    apt-get install -y build-essential python3 python3-pip git libcurl4-openssl-dev libgomp1
+    apt-get install -y build-essential git cmake libcurl4-openssl-dev
 COPY requirements.txt   requirements.txt
 COPY requirements       requirements
 RUN pip install --upgrade pip setuptools wheel \
    && pip install -r requirements.txt
 WORKDIR /app
 COPY . .
-ENV LLAMA_CURL=1
+RUN cmake -S . -B build -DGGML_BACKEND_DL=ON -DGGML_NATIVE=OFF -DGGML_CPU_ALL_VARIANTS=ON -DLLAMA_CURL=ON -DCMAKE_BUILD_TYPE=Release && \
    cmake --build build -j $(nproc) && \
    mkdir -p /app/lib && \
    find build -name "*.so" -exec cp {} /app/lib/ \;
 FROM ubuntu:$UBUNTU_VERSION as runtime
-RUN make -j$(nproc)
+WORKDIR /app
 RUN apt-get update && \
    apt-get install -y build-essential python3 python3-pip git libcurl4-openssl-dev libgomp1
 COPY requirements.txt   /app/requirements.txt
 COPY requirements       /app/requirements
 COPY .devops/tools.sh   /app/tools.sh
 RUN pip install --upgrade pip setuptools wheel && \
    pip install -r /app/requirements.txt
 COPY --from=build /app/build/bin/ /app/
 COPY --from=build /app/lib/ /app/
 COPY --from=build /app/convert_hf_to_gguf.py /app/
 COPY --from=build /app/gguf-py /app/gguf-py
 ENV LC_ALL=C.utf8
-ENTRYPOINT ["/app/.devops/tools.sh"]
+ENTRYPOINT ["/app/tools.sh"]
--- a/.devops/llama-cli.Dockerfile
+++ b/.devops/llama-cli.Dockerfile
@ -3,21 +3,27 @@ ARG UBUNTU_VERSION=22.04
 FROM ubuntu:$UBUNTU_VERSION AS build
 RUN apt-get update && \
-    apt-get install -y build-essential git
+    apt-get install -y build-essential git cmake libcurl4-openssl-dev
 WORKDIR /app
 COPY . .
-RUN make -j$(nproc) llama-cli
+RUN cmake -S . -B build -DGGML_BACKEND_DL=ON -DGGML_NATIVE=OFF -DGGML_CPU_ALL_VARIANTS=ON -DLLAMA_CURL=ON -DCMAKE_BUILD_TYPE=Release && \
    cmake --build build -j $(nproc) && \
    mkdir -p /app/lib && \
    find build -name "*.so" -exec cp {} /app/lib/ \;
 FROM ubuntu:$UBUNTU_VERSION AS runtime
-RUN apt-get update && \
+WORKDIR /app
    apt-get install -y libgomp1
-COPY --from=build /app/llama-cli /llama-cli
+RUN apt-get update && \
    apt-get install -y libcurl4-openssl-dev libgomp1 curl
 COPY --from=build /app/build/bin/llama-cli /app/
 COPY --from=build /app/lib/ /app/
 ENV LC_ALL=C.utf8
-ENTRYPOINT [ "/llama-cli" ]
+ENTRYPOINT [ "/app/llama-cli" ]
--- a/.devops/llama-server.Dockerfile
+++ b/.devops/llama-server.Dockerfile
@ -9,28 +9,20 @@ WORKDIR /app
 COPY . .
-
+RUN cmake -S . -B build -DGGML_BACKEND_DL=ON -DGGML_NATIVE=OFF -DGGML_CPU_ALL_VARIANTS=ON -DLLAMA_CURL=ON -DCMAKE_BUILD_TYPE=Release && \
-RUN \
+    cmake --build build -j $(nproc) && \
    # Build multiple versions of the CPU backend
    scripts/build-cpu.sh avx         -DGGML_AVX=ON -DGGML_AVX2=OFF && \
    scripts/build-cpu.sh avx2        -DGGML_AVX=ON -DGGML_AVX2=ON && \
    scripts/build-cpu.sh avx512      -DGGML_AVX=ON -DGGML_AVX2=ON -DGGML_AVX512=ON && \
    scripts/build-cpu.sh amx         -DGGML_AVX=ON -DGGML_AVX2=ON -DGGML_AVX512=ON -DGGML_AVX_VNNI=ON -DGGML_AVX512_VNNI=ON -DGGML_AMX_TILE=ON -DGGML_AMX_INT8=ON && \
    # Build llama-server
    cmake -S . -B build -DGGML_BACKEND_DL=ON -DGGML_NATIVE=OFF -DLLAMA_CURL=ON -DCMAKE_BUILD_TYPE=Release && \
    cmake --build build --target llama-server -j $(nproc) && \
    # Copy the built libraries to /app/lib
    mkdir -p /app/lib && \
    mv libggml-cpu* /app/lib/ && \
    find build -name "*.so" -exec cp {} /app/lib/ \;
 FROM ubuntu:$UBUNTU_VERSION AS runtime
 WORKDIR /app
 RUN apt-get update && \
    apt-get install -y libcurl4-openssl-dev libgomp1 curl
-COPY --from=build /app/build/bin/llama-server /llama-server
+COPY --from=build /app/build/bin/llama-server /app/
-COPY --from=build /app/lib/ /
+COPY --from=build /app/lib/ /app/
 ENV LC_ALL=C.utf8
 # Must be set to 0.0.0.0 so it can listen to requests from host machine
@ -38,4 +30,4 @@ ENV LLAMA_ARG_HOST=0.0.0.0
 HEALTHCHECK CMD [ "curl", "-f", "http://localhost:8080/health" ]
-ENTRYPOINT [ "/llama-server" ]
+ENTRYPOINT [ "/app/llama-server" ]
--- a/ggml/CMakeLists.txt
+++ b/ggml/CMakeLists.txt
@ -92,30 +92,33 @@ else()
    set(INS_ENB ON)
 endif()
-option(GGML_CPU_HBM     "ggml: use memkind for CPU HBM" OFF)
+option(GGML_CPU_HBM          "ggml: use memkind for CPU HBM" OFF)
-option(GGML_CPU_AARCH64 "ggml: use runtime weight conversion of Q4_0 to Q4_X_X" ON)
+option(GGML_CPU_AARCH64      "ggml: use runtime weight conversion of Q4_0 to Q4_X_X" ON)
-
+option(GGML_AVX              "ggml: enable AVX"              ${INS_ENB})
-option(GGML_AVX         "ggml: enable AVX"              ${INS_ENB})
+option(GGML_AVX_VNNI         "ggml: enable AVX-VNNI"         OFF)
-option(GGML_AVX_VNNI    "ggml: enable AVX-VNNI"         OFF)
+option(GGML_AVX2             "ggml: enable AVX2"             ${INS_ENB})
-option(GGML_AVX2        "ggml: enable AVX2"             ${INS_ENB})
+option(GGML_AVX512           "ggml: enable AVX512F"          OFF)
-option(GGML_AVX512      "ggml: enable AVX512"           OFF)
+option(GGML_AVX512_VBMI      "ggml: enable AVX512-VBMI"      OFF)
-option(GGML_AVX512_VBMI "ggml: enable AVX512-VBMI"      OFF)
+option(GGML_AVX512_VNNI      "ggml: enable AVX512-VNNI"      OFF)
-option(GGML_AVX512_VNNI "ggml: enable AVX512-VNNI"      OFF)
+option(GGML_AVX512_BF16      "ggml: enable AVX512-BF16"      OFF)
 option(GGML_AVX512_BF16 "ggml: enable AVX512-BF16"      OFF)
 option(GGML_AMX_TILE    "ggml: enable AMX-TILE"         OFF)
 option(GGML_AMX_INT8    "ggml: enable AMX-INT8"         OFF)
 option(GGML_AMX_BF16    "ggml: enable AMX-BF16"         OFF)
 option(GGML_FMA         "ggml: enable FMA"              ${INS_ENB})
 if (NOT MSVC)
-    option(GGML_F16C    "ggml: enable F16C"             ${INS_ENB}) # in MSVC F16C is implied with AVX2/AVX512
+    # in MSVC F16C and FMA is implied with AVX2/AVX512
    option(GGML_FMA          "ggml: enable FMA"              ${INS_ENB})
    option(GGML_F16C         "ggml: enable F16C"             ${INS_ENB})
    # MSVC does not seem to support AMX
    option(GGML_AMX_TILE     "ggml: enable AMX-TILE"         OFF)
    option(GGML_AMX_INT8     "ggml: enable AMX-INT8"         OFF)
    option(GGML_AMX_BF16     "ggml: enable AMX-BF16"         OFF)
 endif()
-option(GGML_LASX        "ggml: enable lasx"             ON)
+option(GGML_LASX             "ggml: enable lasx"             ON)
-option(GGML_LSX         "ggml: enable lsx"              ON)
+option(GGML_LSX              "ggml: enable lsx"              ON)
-option(GGML_RVV         "ggml: enable rvv"              ON)
+option(GGML_RVV              "ggml: enable rvv"              ON)
-option(GGML_SVE         "ggml: enable SVE"              OFF)
+option(GGML_SVE              "ggml: enable SVE"              OFF)
 option(GGML_CPU_ALL_VARIANTS "ggml: build all variants of the CPU backend (requires GGML_BACKEND_DL)" OFF)
 if (WIN32)
-    set(GGML_WIN_VER "0x602" CACHE STRING "ggml: Windows Version")
+    set(GGML_WIN_VER "0x602" CACHE STRING   "ggml: Windows version")
 endif()
 # ggml core
@ -180,11 +183,7 @@ option(GGML_BUILD_EXAMPLES "ggml: build examples" ${GGML_STANDALONE})
 set(CMAKE_C_STANDARD 11)
 set(CMAKE_C_STANDARD_REQUIRED true)
-if (GGML_SYCL)
+set(CMAKE_CXX_STANDARD 17)
    set(CMAKE_CXX_STANDARD 17)
 else()
    set(CMAKE_CXX_STANDARD 11)
 endif()
 set(CMAKE_CXX_STANDARD_REQUIRED true)
 set(THREADS_PREFER_PTHREAD_FLAG ON)
--- a/ggml/src/CMakeLists.txt
+++ b/ggml/src/CMakeLists.txt
@ -269,7 +269,42 @@ function(ggml_add_backend backend)
    endif()
 endfunction()
 function(ggml_add_cpu_backend_variant tag_name)
    set(GGML_CPU_TAG_NAME ${tag_name})
    # other: OPENMP LLAMAFILE CPU_HBM
    foreach (feat NATIVE
                  AVX AVX2 AVX_VNNI FMA F16C
                  AVX512 AVX512_VBMI AVX512_VNNI AVX512_BF16
                  AMX_TILE AMX_INT8 AMX_BF16)
        set(GGML_${feat} OFF)
    endforeach()
    foreach (feat ${ARGN})
        set(GGML_${feat} ON)
    endforeach()
    ggml_add_cpu_backend_variant_impl(${tag_name})
 endfunction()
 ggml_add_backend(CPU)
 if (GGML_CPU_ALL_VARIANTS)
    if (NOT GGML_BACKEND_DL)
        message(FATAL_ERROR "GGML_CPU_ALL_VARIANTS requires GGML_BACKEND_DL")
    endif()
    ggml_add_cpu_backend_variant(sandybridge    AVX)
    ggml_add_cpu_backend_variant(haswell        AVX F16C AVX2 FMA)
    ggml_add_cpu_backend_variant(skylakex       AVX F16C AVX2 FMA AVX512)
    ggml_add_cpu_backend_variant(icelake        AVX F16C AVX2 FMA AVX512 AVX512_VBMI AVX512_VNNI)
    if (NOT MSVC)
        # MSVC doesn't support AVX-VNNI or AMX
        ggml_add_cpu_backend_variant(alderlake      AVX F16C AVX2 FMA AVX_VNNI)
        ggml_add_cpu_backend_variant(sapphirerapids AVX F16C AVX2 FMA AVX512 AVX512_VBMI AVX512_VNNI AVX512_BF16 AMX_TILE AMX_INT8)
    endif()
 else ()
    ggml_add_cpu_backend_variant_impl("")
 endif()
 ggml_add_backend(BLAS)
 ggml_add_backend(CANN)
 ggml_add_backend(CUDA)
--- a/ggml/src/ggml-backend-reg.cpp
+++ b/ggml/src/ggml-backend-reg.cpp
@ -483,6 +483,10 @@ static ggml_backend_reg_t ggml_backend_load_best(const char * name, bool silent)
                                best_score = s;
                                best_path = entry.path().string();
                            }
                        } else {
                            if (!silent) {
                                GGML_LOG_INFO("%s: failed to find ggml_backend_score in %s\n", __func__, entry.path().string().c_str());
                            }
                        }
                    }
                }
@ -505,15 +509,21 @@ static ggml_backend_reg_t ggml_backend_load_best(const char * name, bool silent)
 }
 void ggml_backend_load_all() {
-    ggml_backend_load_best("blas", true);
+#ifdef NDEBUG
-    ggml_backend_load_best("cann", true);
+    bool silent = true;
-    ggml_backend_load_best("cuda", true);
+#else
-    ggml_backend_load_best("hip", true);
+    bool silent = false;
-    ggml_backend_load_best("kompute", true);
+#endif
-    ggml_backend_load_best("metal", true);
+
-    ggml_backend_load_best("rpc", true);
+    ggml_backend_load_best("blas", silent);
-    ggml_backend_load_best("sycl", true);
+    ggml_backend_load_best("cann", silent);
-    ggml_backend_load_best("vulkan", true);
+    ggml_backend_load_best("cuda", silent);
-    ggml_backend_load_best("musa", true);
+    ggml_backend_load_best("hip", silent);
-    ggml_backend_load_best("cpu", true);
+    ggml_backend_load_best("kompute", silent);
    ggml_backend_load_best("metal", silent);
    ggml_backend_load_best("rpc", silent);
    ggml_backend_load_best("sycl", silent);
    ggml_backend_load_best("vulkan", silent);
    ggml_backend_load_best("musa", silent);
    ggml_backend_load_best("cpu", silent);
 }
--- a/ggml/src/ggml-cpu/CMakeLists.txt
+++ b/ggml/src/ggml-cpu/CMakeLists.txt
@ -1,319 +1,354 @@
-ggml_add_backend_library(ggml-cpu)
+function(ggml_add_cpu_backend_variant_impl tag_name)
-
+    if (tag_name)
-list (APPEND GGML_CPU_SOURCES
+        set(GGML_CPU_NAME ggml-cpu-${tag_name})
    ggml-cpu.c
    ggml-cpu.cpp
    ggml-cpu-aarch64.c
    ggml-cpu-aarch64.h
    ggml-cpu-quants.c
    ggml-cpu-quants.h
    amx/amx.cpp
    amx/amx.h
    amx/mmq.cpp
    amx/mmq.h
    ggml-cpu-impl.h
    )
 target_compile_features(ggml-cpu PRIVATE c_std_11 cxx_std_17)
 target_include_directories(ggml-cpu PRIVATE .)
 if (APPLE AND GGML_ACCELERATE)
    find_library(ACCELERATE_FRAMEWORK Accelerate)
    if (ACCELERATE_FRAMEWORK)
        message(STATUS "Accelerate framework found")
        target_compile_definitions(ggml-cpu PRIVATE GGML_USE_ACCELERATE)
        target_compile_definitions(ggml-cpu PRIVATE ACCELERATE_NEW_LAPACK)
        target_compile_definitions(ggml-cpu PRIVATE ACCELERATE_LAPACK_ILP64)
        target_link_libraries(ggml-cpu PRIVATE ${ACCELERATE_FRAMEWORK})
    else()
-        message(WARNING "Accelerate framework not found")
+        set(GGML_CPU_NAME ggml-cpu)
    endif()
 endif()
-if (GGML_OPENMP)
+    ggml_add_backend_library(${GGML_CPU_NAME})
    find_package(OpenMP)
    if (OpenMP_FOUND)
        message(STATUS "OpenMP found")
-        target_compile_definitions(ggml-cpu PRIVATE GGML_USE_OPENMP)
+    list (APPEND GGML_CPU_SOURCES
        ggml-cpu/ggml-cpu.c
        ggml-cpu/ggml-cpu.cpp
        ggml-cpu/ggml-cpu-aarch64.c
        ggml-cpu/ggml-cpu-aarch64.h
        ggml-cpu/ggml-cpu-quants.c
        ggml-cpu/ggml-cpu-quants.h
        ggml-cpu/amx/amx.cpp
        ggml-cpu/amx/amx.h
        ggml-cpu/amx/mmq.cpp
        ggml-cpu/amx/mmq.h
        ggml-cpu/ggml-cpu-impl.h
        )
-        target_link_libraries(ggml-cpu PRIVATE OpenMP::OpenMP_C OpenMP::OpenMP_CXX)
+    target_compile_features(${GGML_CPU_NAME} PRIVATE c_std_11 cxx_std_17)
-    else()
+    target_include_directories(${GGML_CPU_NAME} PRIVATE . ggml-cpu)
-        message(WARNING "OpenMP not found")
+
    if (APPLE AND GGML_ACCELERATE)
        find_library(ACCELERATE_FRAMEWORK Accelerate)
        if (ACCELERATE_FRAMEWORK)
            message(STATUS "Accelerate framework found")
            target_compile_definitions(${GGML_CPU_NAME} PRIVATE GGML_USE_ACCELERATE)
            target_compile_definitions(${GGML_CPU_NAME} PRIVATE ACCELERATE_NEW_LAPACK)
            target_compile_definitions(${GGML_CPU_NAME} PRIVATE ACCELERATE_LAPACK_ILP64)
            target_link_libraries(${GGML_CPU_NAME} PRIVATE ${ACCELERATE_FRAMEWORK})
        else()
            message(WARNING "Accelerate framework not found")
        endif()
    endif()
 endif()
-if (GGML_LLAMAFILE)
+    if (GGML_OPENMP)
-    message(STATUS "Using llamafile")
+        find_package(OpenMP)
        if (OpenMP_FOUND)
            target_compile_definitions(${GGML_CPU_NAME} PRIVATE GGML_USE_OPENMP)
-    target_compile_definitions(ggml-cpu PRIVATE GGML_USE_LLAMAFILE)
+            target_link_libraries(${GGML_CPU_NAME} PRIVATE OpenMP::OpenMP_C OpenMP::OpenMP_CXX)
        else()
            message(WARNING "OpenMP not found")
        endif()
    endif()
-    list(APPEND GGML_CPU_SOURCES
+    if (GGML_LLAMAFILE)
-                llamafile/sgemm.cpp
+        target_compile_definitions(${GGML_CPU_NAME} PRIVATE GGML_USE_LLAMAFILE)
                llamafile/sgemm.h)
 endif()
-if (GGML_CPU_HBM)
+        list(APPEND GGML_CPU_SOURCES
-    find_library(memkind memkind REQUIRED)
+                    ggml-cpu/llamafile/sgemm.cpp
                    ggml-cpu/llamafile/sgemm.h)
    endif()
-    message(STATUS "Using memkind for CPU HBM")
+    if (GGML_CPU_HBM)
        find_library(memkind memkind REQUIRED)
-    target_compile_definitions(ggml-cpu PRIVATE GGML_USE_CPU_HBM)
+        message(STATUS "Using memkind for CPU HBM")
-    target_link_libraries(ggml-cpu PUBLIC memkind)
+        target_compile_definitions(${GGML_CPU_NAME} PRIVATE GGML_USE_CPU_HBM)
 endif()
-if (CMAKE_OSX_ARCHITECTURES      STREQUAL "arm64" OR
+        target_link_libraries(${GGML_CPU_NAME} PUBLIC memkind)
-    CMAKE_GENERATOR_PLATFORM_LWR STREQUAL "arm64" OR
+    endif()
    (NOT CMAKE_OSX_ARCHITECTURES      AND
     NOT CMAKE_GENERATOR_PLATFORM_LWR AND
         CMAKE_SYSTEM_PROCESSOR MATCHES "^(aarch64|arm.*|ARM64)$"))
-    message(STATUS "ARM detected")
+    if (CMAKE_OSX_ARCHITECTURES      STREQUAL "arm64" OR
        CMAKE_GENERATOR_PLATFORM_LWR STREQUAL "arm64" OR
        (NOT CMAKE_OSX_ARCHITECTURES      AND
        NOT CMAKE_GENERATOR_PLATFORM_LWR AND
            CMAKE_SYSTEM_PROCESSOR MATCHES "^(aarch64|arm.*|ARM64)$"))
-    if (MSVC)
+        message(STATUS "ARM detected")
        list(APPEND ARCH_DEFINITIONS __aarch64__) # MSVC defines _M_ARM64 instead
        list(APPEND ARCH_DEFINITIONS __ARM_NEON)
        list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_FMA)
-        set(CMAKE_REQUIRED_FLAGS_PREV ${CMAKE_REQUIRED_FLAGS})
+        if (MSVC)
-        string(JOIN " " CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS} "/arch:armv8.2")
+            list(APPEND ARCH_DEFINITIONS __aarch64__) # MSVC defines _M_ARM64 instead
            list(APPEND ARCH_DEFINITIONS __ARM_NEON)
            list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_FMA)
-        check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vdotq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_DOTPROD)
+            set(CMAKE_REQUIRED_FLAGS_PREV ${CMAKE_REQUIRED_FLAGS})
-        if (GGML_COMPILER_SUPPORT_DOTPROD)
+            string(JOIN " " CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS} "/arch:armv8.2")
            list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_DOTPROD)
-            message(STATUS "ARM feature DOTPROD enabled")
+            check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vdotq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_DOTPROD)
-        endif ()
+            if (GGML_COMPILER_SUPPORT_DOTPROD)
                list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_DOTPROD)
-        check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vmmlaq_f32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_MATMUL_INT8)
+                message(STATUS "ARM feature DOTPROD enabled")
        if (GGML_COMPILER_SUPPORT_MATMUL_INT8)
            list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_MATMUL_INT8)
            message(STATUS "ARM feature MATMUL_INT8 enabled")
        endif ()
        check_cxx_source_compiles("#include <arm_neon.h>\nint main() { float16_t _a; float16x8_t _s = vdupq_n_f16(_a); return 0; }" GGML_COMPILER_SUPPORT_FP16_VECTOR_ARITHMETIC)
        if (GGML_COMPILER_SUPPORT_FP16_VECTOR_ARITHMETIC)
            list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_FP16_VECTOR_ARITHMETIC)
            message(STATUS "ARM feature FP16_VECTOR_ARITHMETIC enabled")
        endif ()
        set(CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS_PREV})
    elseif (APPLE)
        if (GGML_NATIVE)
            set(USER_PROVIDED_MARCH FALSE)
            foreach(flag_var IN ITEMS CMAKE_C_FLAGS CMAKE_CXX_FLAGS CMAKE_REQUIRED_FLAGS)
                if ("${${flag_var}}" MATCHES "-march=[a-zA-Z0-9+._-]+")
                    set(USER_PROVIDED_MARCH TRUE)
                    break()
                endif()
            endforeach()
            if (NOT USER_PROVIDED_MARCH)
                set(MARCH_FLAGS "-march=armv8.2a")
                check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vdotq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_DOTPROD)
                if (GGML_COMPILER_SUPPORT_DOTPROD)
                    set(MARCH_FLAGS "${MARCH_FLAGS}+dotprod")
                    list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_DOTPROD)
                    message(STATUS "ARM feature DOTPROD enabled")
                endif ()
                set(TEST_I8MM_FLAGS "-march=armv8.2a+i8mm")
                set(CMAKE_REQUIRED_FLAGS_SAVE ${CMAKE_REQUIRED_FLAGS})
                set(CMAKE_REQUIRED_FLAGS     "${CMAKE_REQUIRED_FLAGS} ${TEST_I8MM_FLAGS}")
                check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vmmlaq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_MATMUL_INT8)
                if (GGML_COMPILER_SUPPORT_MATMUL_INT8)
                    set(MARCH_FLAGS "${MARCH_FLAGS}+i8mm")
                    list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_MATMUL_INT8)
                    message(STATUS "ARM feature MATMUL_INT8 enabled")
                endif ()
                set(CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS_SAVE})
                list(APPEND ARCH_FLAGS "${MARCH_FLAGS}")
            endif ()
-        endif ()
+
-    else()
+            check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vmmlaq_f32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_MATMUL_INT8)
-        check_cxx_compiler_flag(-mfp16-format=ieee COMPILER_SUPPORTS_FP16_FORMAT_I3E)
+
-        if (NOT "${COMPILER_SUPPORTS_FP16_FORMAT_I3E}" STREQUAL "")
+            if (GGML_COMPILER_SUPPORT_MATMUL_INT8)
-            list(APPEND ARCH_FLAGS -mfp16-format=ieee)
+                list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_MATMUL_INT8)
-        endif()
+
-        if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv6")
+                message(STATUS "ARM feature MATMUL_INT8 enabled")
-            # Raspberry Pi 1, Zero
+            endif ()
-            list(APPEND ARCH_FLAGS -mfpu=neon-fp-armv8 -mno-unaligned-access)
+
-        endif()
+            check_cxx_source_compiles("#include <arm_neon.h>\nint main() { float16_t _a; float16x8_t _s = vdupq_n_f16(_a); return 0; }" GGML_COMPILER_SUPPORT_FP16_VECTOR_ARITHMETIC)
-        if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv7")
+            if (GGML_COMPILER_SUPPORT_FP16_VECTOR_ARITHMETIC)
-            if ("${CMAKE_SYSTEM_NAME}" STREQUAL "Android")
+                list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_FP16_VECTOR_ARITHMETIC)
-                # Android armeabi-v7a
+
-                list(APPEND ARCH_FLAGS -mfpu=neon-vfpv4 -mno-unaligned-access -funsafe-math-optimizations)
+                message(STATUS "ARM feature FP16_VECTOR_ARITHMETIC enabled")
-            else()
+            endif ()
-                # Raspberry Pi 2
+
-                list(APPEND ARCH_FLAGS -mfpu=neon-fp-armv8 -mno-unaligned-access -funsafe-math-optimizations)
+            set(CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS_PREV})
        elseif (APPLE)
            if (GGML_NATIVE)
                set(USER_PROVIDED_MARCH FALSE)
                foreach(flag_var IN ITEMS CMAKE_C_FLAGS CMAKE_CXX_FLAGS CMAKE_REQUIRED_FLAGS)
                    if ("${${flag_var}}" MATCHES "-march=[a-zA-Z0-9+._-]+")
                        set(USER_PROVIDED_MARCH TRUE)
                        break()
                    endif()
                endforeach()
                if (NOT USER_PROVIDED_MARCH)
                    set(MARCH_FLAGS "-march=armv8.2a")
                    check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vdotq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_DOTPROD)
                    if (GGML_COMPILER_SUPPORT_DOTPROD)
                        set(MARCH_FLAGS "${MARCH_FLAGS}+dotprod")
                        list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_DOTPROD)
                        message(STATUS "ARM feature DOTPROD enabled")
                    endif ()
                    set(TEST_I8MM_FLAGS "-march=armv8.2a+i8mm")
                    set(CMAKE_REQUIRED_FLAGS_SAVE ${CMAKE_REQUIRED_FLAGS})
                    set(CMAKE_REQUIRED_FLAGS     "${CMAKE_REQUIRED_FLAGS} ${TEST_I8MM_FLAGS}")
                    check_cxx_source_compiles("#include <arm_neon.h>\nint main() { int8x16_t _a, _b; int32x4_t _s = vmmlaq_s32(_s, _a, _b); return 0; }" GGML_COMPILER_SUPPORT_MATMUL_INT8)
                    if (GGML_COMPILER_SUPPORT_MATMUL_INT8)
                        set(MARCH_FLAGS "${MARCH_FLAGS}+i8mm")
                        list(APPEND ARCH_DEFINITIONS __ARM_FEATURE_MATMUL_INT8)
                        message(STATUS "ARM feature MATMUL_INT8 enabled")
                    endif ()
                    set(CMAKE_REQUIRED_FLAGS ${CMAKE_REQUIRED_FLAGS_SAVE})
                    list(APPEND ARCH_FLAGS "${MARCH_FLAGS}")
                endif ()
            endif ()
        else()
            check_cxx_compiler_flag(-mfp16-format=ieee COMPILER_SUPPORTS_FP16_FORMAT_I3E)
            if (NOT "${COMPILER_SUPPORTS_FP16_FORMAT_I3E}" STREQUAL "")
                list(APPEND ARCH_FLAGS -mfp16-format=ieee)
            endif()
            if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv6")
                # Raspberry Pi 1, Zero
                list(APPEND ARCH_FLAGS -mfpu=neon-fp-armv8 -mno-unaligned-access)
            endif()
            if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv7")
                if ("${CMAKE_SYSTEM_NAME}" STREQUAL "Android")
                    # Android armeabi-v7a
                    list(APPEND ARCH_FLAGS -mfpu=neon-vfpv4 -mno-unaligned-access -funsafe-math-optimizations)
                else()
                    # Raspberry Pi 2
                    list(APPEND ARCH_FLAGS -mfpu=neon-fp-armv8 -mno-unaligned-access -funsafe-math-optimizations)
                endif()
            endif()
            if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv8")
                # Android arm64-v8a
                # Raspberry Pi 3, 4, Zero 2 (32-bit)
                list(APPEND ARCH_FLAGS -mno-unaligned-access)
            endif()
            if (GGML_SVE)
                list(APPEND ARCH_FLAGS -march=armv8.6-a+sve)
            endif()
        endif()
-        if (${CMAKE_SYSTEM_PROCESSOR} MATCHES "armv8")
+    elseif (CMAKE_OSX_ARCHITECTURES STREQUAL "x86_64" OR CMAKE_GENERATOR_PLATFORM_LWR MATCHES "^(x86_64|i686|amd64|x64|win32)$" OR
-            # Android arm64-v8a
+            (NOT CMAKE_OSX_ARCHITECTURES AND NOT CMAKE_GENERATOR_PLATFORM_LWR AND
-            # Raspberry Pi 3, 4, Zero 2 (32-bit)
+            CMAKE_SYSTEM_PROCESSOR MATCHES "^(x86_64|i686|AMD64)$"))
-            list(APPEND ARCH_FLAGS -mno-unaligned-access)
+        if (MSVC)
-        endif()
+            # instruction set detection for MSVC only
-        if (GGML_SVE)
+            if (GGML_NATIVE)
-            list(APPEND ARCH_FLAGS -march=armv8.6-a+sve)
+                include(ggml-cpu/cmake/FindSIMD.cmake)
-        endif()
+            endif ()
-    endif()
+            if (GGML_AVX512)
-elseif (CMAKE_OSX_ARCHITECTURES STREQUAL "x86_64" OR CMAKE_GENERATOR_PLATFORM_LWR MATCHES "^(x86_64|i686|amd64|x64|win32)$" OR
+                list(APPEND ARCH_FLAGS /arch:AVX512)
-        (NOT CMAKE_OSX_ARCHITECTURES AND NOT CMAKE_GENERATOR_PLATFORM_LWR AND
+                # /arch:AVX512 includes: __AVX512F__, __AVX512CD__, __AVX512BW__, __AVX512DQ__, and __AVX512VL__
-         CMAKE_SYSTEM_PROCESSOR MATCHES "^(x86_64|i686|AMD64)$"))
+                # MSVC has no compile-time flags enabling specific
-    message(STATUS "x86 detected")
+                # AVX512 extensions, neither it defines the
-    if (MSVC)
+                # macros corresponding to the extensions.
-        # instruction set detection for MSVC only
+                # Do it manually.
-        if (GGML_NATIVE)
+                list(APPEND ARCH_DEFINITIONS GGML_AVX512)
-            include(cmake/FindSIMD.cmake)
+                if (GGML_AVX512_VBMI)
-        endif ()
+                    list(APPEND ARCH_DEFINITIONS __AVX512VBMI__)
-        if (GGML_AVX512)
+                    if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
-            list(APPEND ARCH_FLAGS /arch:AVX512)
+                        list(APPEND ARCH_FLAGS -mavx512vbmi)
-            # MSVC has no compile-time flags enabling specific
+                    endif()
-            # AVX512 extensions, neither it defines the
+                endif()
-            # macros corresponding to the extensions.
+                if (GGML_AVX512_VNNI)
-            # Do it manually.
+                    list(APPEND ARCH_DEFINITIONS __AVX512VNNI__ GGML_AVX512_VNNI)
-            if (GGML_AVX512_VBMI)
+                    if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
-                list(APPEND ARCH_DEFINITIONS __AVX512VBMI__)
+                        list(APPEND ARCH_FLAGS -mavx512vnni)
-                if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
+                    endif()
                endif()
                if (GGML_AVX512_BF16)
                    list(APPEND ARCH_DEFINITIONS __AVX512BF16__ GGML_AVX512_BF16)
                    if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
                        list(APPEND ARCH_FLAGS -mavx512bf16)
                    endif()
                endif()
                if (GGML_AMX_TILE)
                    list(APPEND ARCH_DEFINITIONS __AMX_TILE__ GGML_AMX_TILE)
                endif()
                if (GGML_AMX_INT8)
                    list(APPEND ARCH_DEFINITIONS __AMX_INT8__ GGML_AMX_INT8)
                endif()
                if (GGML_AMX_BF16)
                    list(APPEND ARCH_DEFINITIONS __AMX_BF16__ GGML_AMX_BF16)
                endif()
            elseif (GGML_AVX2)
                list(APPEND ARCH_FLAGS /arch:AVX2)
                list(APPEND ARCH_DEFINITIONS GGML_AVX2 GGML_FMA GGML_F16C)
            elseif (GGML_AVX)
                list(APPEND ARCH_FLAGS /arch:AVX)
                list(APPEND ARCH_DEFINITIONS GGML_AVX)
            else ()
                list(APPEND ARCH_FLAGS /arch:SSE4.2)
                list(APPEND ARCH_DEFINITIONS GGML_SSE42)
            endif()
            if (GGML_AVX_VNNI)
                # MSVC generates AVX512 with AVX-VNNI intrinsics even with /arch:AVX2
                #list(APPEND ARCH_DEFINITIONS __AVXVNNI__ GGML_AVX_VNNI)
            endif()
        else ()
            if (GGML_NATIVE)
                list(APPEND ARCH_FLAGS -march=native)
            else ()
                list(APPEND ARCH_FLAGS -msse4.2)
                list(APPEND ARCH_DEFINITIONS GGML_SSE42)
                if (GGML_F16C)
                    list(APPEND ARCH_FLAGS -mf16c)
                    list(APPEND ARCH_DEFINITIONS GGML_F16C)
                endif()
                if (GGML_FMA)
                    list(APPEND ARCH_FLAGS -mfma)
                    list(APPEND ARCH_DEFINITIONS GGML_FMA)
                endif()
                if (GGML_AVX)
                    list(APPEND ARCH_FLAGS -mavx)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX)
                endif()
                if (GGML_AVX2)
                    list(APPEND ARCH_FLAGS -mavx2)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX2)
                endif()
                if (GGML_AVX_VNNI)
                    list(APPEND ARCH_FLAGS -mavxvnni)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX_VNNI)
                endif()
                if (GGML_AVX512)
                    list(APPEND ARCH_FLAGS -mavx512f)
                    list(APPEND ARCH_FLAGS -mavx512cd)
                    list(APPEND ARCH_FLAGS -mavx512vl)
                    list(APPEND ARCH_FLAGS -mavx512dq)
                    list(APPEND ARCH_FLAGS -mavx512bw)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX512)
                endif()
                if (GGML_AVX512_VBMI)
                    list(APPEND ARCH_FLAGS -mavx512vbmi)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX512_VBMI)
                endif()
-            endif()
+                if (GGML_AVX512_VNNI)
            if (GGML_AVX512_VNNI)
                list(APPEND ARCH_DEFINITIONS __AVX512VNNI__)
                if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
                    list(APPEND ARCH_FLAGS -mavx512vnni)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX512_VNNI)
                endif()
-            endif()
+                if (GGML_AVX512_BF16)
            if (GGML_AVX512_BF16)
                list(APPEND ARCH_DEFINITIONS __AVX512BF16__)
                if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
                    list(APPEND ARCH_FLAGS -mavx512bf16)
                    list(APPEND ARCH_DEFINITIONS GGML_AVX512_BF16)
                endif()
                if (GGML_AMX_TILE)
                    list(APPEND ARCH_FLAGS -mamx-tile)
                    list(APPEND ARCH_DEFINITIONS GGML_AMX_TILE)
                endif()
                if (GGML_AMX_INT8)
                    list(APPEND ARCH_FLAGS -mamx-int8)
                    list(APPEND ARCH_DEFINITIONS GGML_AMX_INT8)
                endif()
                if (GGML_AMX_BF16)
                    list(APPEND ARCH_FLAGS -mamx-bf16)
                    list(APPEND ARCH_DEFINITIONS GGML_AMX_BF16)
                endif()
            endif()
            if (GGML_AMX_TILE)
                list(APPEND ARCH_DEFINITIONS __AMX_TILE__)
            endif()
            if (GGML_AMX_INT8)
                list(APPEND ARCH_DEFINITIONS __AMX_INT8__)
            endif()
            if (GGML_AMX_BF16)
                list(APPEND ARCH_DEFINITIONS __AMX_BF16__)
            endif()
        elseif (GGML_AVX2)
            list(APPEND ARCH_FLAGS /arch:AVX2)
        elseif (GGML_AVX)
            list(APPEND ARCH_FLAGS /arch:AVX)
        endif()
-        if (GGML_AVX_VNNI)
+    elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64")
-            list(APPEND ARCH_DEFINITIONS __AVXVNNI__)
+        message(STATUS "PowerPC detected")
-            if (CMAKE_C_COMPILER_ID STREQUAL "Clang")
+        execute_process(COMMAND bash -c "grep POWER10 /proc/cpuinfo | head -n 1" OUTPUT_VARIABLE POWER10_M)
-                list(APPEND ARCH_FLAGS -mavxvnni)
+        string(FIND "${POWER10_M}" "POWER10" substring_index)
-            endif()
+        if (NOT DEFINED substring_index OR "${substring_index}" STREQUAL "")
            set(substring_index -1)
        endif()
        if (${substring_index} GREATER_EQUAL 0)
        list(APPEND ARCH_FLAGS -mcpu=power10)
        elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64le")
        list(APPEND ARCH_FLAGS -mcpu=powerpc64le)
        else()
            list(APPEND ARCH_FLAGS -mcpu=native -mtune=native)
            # TODO: Add  targets for Power8/Power9 (Altivec/VSX) and Power10(MMA) and query for big endian systems (ppc64/le/be)
        endif()
    elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "loongarch64")
        message(STATUS "loongarch64 detected")
        list(APPEND ARCH_FLAGS -march=loongarch64)
        if (GGML_LASX)
            list(APPEND ARCH_FLAGS -mlasx)
        endif()
        if (GGML_LSX)
            list(APPEND ARCH_FLAGS -mlsx)
        endif()
    elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "riscv64")
        message(STATUS "RISC-V detected")
        if (GGML_RVV)
            list(APPEND ARCH_FLAGS -march=rv64gcv -mabi=lp64d)
        endif()
    else()
-        if (GGML_NATIVE)
+        message(STATUS "Unknown architecture")
            list(APPEND ARCH_FLAGS -march=native)
        endif()
        if (GGML_F16C)
            list(APPEND ARCH_FLAGS -mf16c)
        endif()
        if (GGML_FMA)
            list(APPEND ARCH_FLAGS -mfma)
        endif()
        if (GGML_AVX)
            list(APPEND ARCH_FLAGS -mavx)
        endif()
        if (GGML_AVX2)
            list(APPEND ARCH_FLAGS -mavx2)
        endif()
        if (GGML_AVX_VNNI)
            list(APPEND ARCH_FLAGS -mavxvnni)
        endif()
        if (GGML_AVX512)
            list(APPEND ARCH_FLAGS -mavx512f)
            list(APPEND ARCH_FLAGS -mavx512dq)
            list(APPEND ARCH_FLAGS -mavx512bw)
        endif()
        if (GGML_AVX512_VBMI)
            list(APPEND ARCH_FLAGS -mavx512vbmi)
        endif()
        if (GGML_AVX512_VNNI)
            list(APPEND ARCH_FLAGS -mavx512vnni)
        endif()
        if (GGML_AVX512_BF16)
            list(APPEND ARCH_FLAGS -mavx512bf16)
        endif()
        if (GGML_AMX_TILE)
            list(APPEND ARCH_FLAGS -mamx-tile)
        endif()
        if (GGML_AMX_INT8)
            list(APPEND ARCH_FLAGS -mamx-int8)
        endif()
        if (GGML_AMX_BF16)
            list(APPEND ARCH_FLAGS -mamx-bf16)
        endif()
    endif()
 elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64")
    message(STATUS "PowerPC detected")
    execute_process(COMMAND bash -c "grep POWER10 /proc/cpuinfo | head -n 1" OUTPUT_VARIABLE POWER10_M)
    string(FIND "${POWER10_M}" "POWER10" substring_index)
    if (NOT DEFINED substring_index OR "${substring_index}" STREQUAL "")
        set(substring_index -1)
    endif()
-    if (${substring_index} GREATER_EQUAL 0)
+    if (GGML_CPU_AARCH64)
-       list(APPEND ARCH_FLAGS -mcpu=power10)
+        target_compile_definitions(${GGML_CPU_NAME} PRIVATE GGML_USE_CPU_AARCH64)
    elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "ppc64le")
       list(APPEND ARCH_FLAGS -mcpu=powerpc64le)
    else()
        list(APPEND ARCH_FLAGS -mcpu=native -mtune=native)
        # TODO: Add  targets for Power8/Power9 (Altivec/VSX) and Power10(MMA) and query for big endian systems (ppc64/le/be)
    endif()
 elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "loongarch64")
    message(STATUS "loongarch64 detected")
-    list(APPEND ARCH_FLAGS -march=loongarch64)
+    message(STATUS "Adding CPU backend variant ${GGML_CPU_NAME}: ${ARCH_FLAGS} ${ARCH_DEFINITIONS}")
-    if (GGML_LASX)
+    target_sources(${GGML_CPU_NAME} PRIVATE ${GGML_CPU_SOURCES})
-        list(APPEND ARCH_FLAGS -mlasx)
+    target_compile_options(${GGML_CPU_NAME} PRIVATE ${ARCH_FLAGS})
    target_compile_definitions(${GGML_CPU_NAME} PRIVATE ${ARCH_DEFINITIONS})
    if (GGML_BACKEND_DL)
        # The feature detection code is compiled as a separate target so that
        # it can be built without the architecture flags
        # Since multiple variants of the CPU backend may be included in the same
        # build, using set_source_files_properties() to set the arch flags is not possible
        set(GGML_CPU_FEATS_NAME ${GGML_CPU_NAME}-feats)
        add_library(${GGML_CPU_FEATS_NAME} OBJECT ggml-cpu/cpu-feats-x86.cpp)
        target_include_directories(${GGML_CPU_FEATS_NAME} PRIVATE . .. ../include)
        target_compile_definitions(${GGML_CPU_FEATS_NAME} PRIVATE ${ARCH_DEFINITIONS})
        target_compile_definitions(${GGML_CPU_FEATS_NAME} PRIVATE GGML_BACKEND_DL GGML_BACKEND_BUILD GGML_BACKEND_SHARED)
        set_target_properties(${GGML_CPU_FEATS_NAME} PROPERTIES POSITION_INDEPENDENT_CODE ON)
        target_link_libraries(${GGML_CPU_NAME} PRIVATE ${GGML_CPU_FEATS_NAME})
    endif()
-    if (GGML_LSX)
+
-        list(APPEND ARCH_FLAGS -mlsx)
+    if (EMSCRIPTEN)
        set_target_properties(${GGML_CPU_NAME} PROPERTIES COMPILE_FLAGS "-msimd128")
    endif()
-elseif (${CMAKE_SYSTEM_PROCESSOR} MATCHES "riscv64")
+endfunction()
    message(STATUS "RISC-V detected")
    if (GGML_RVV)
        list(APPEND ARCH_FLAGS -march=rv64gcv -mabi=lp64d)
    endif()
 else()
    message(STATUS "Unknown architecture")
 endif()
 if (GGML_CPU_AARCH64)
    message(STATUS "Using runtime weight conversion of Q4_0 to Q4_0_x_x to enable optimized GEMM/GEMV kernels")
    target_compile_definitions(ggml-cpu PRIVATE GGML_USE_CPU_AARCH64)
 endif()
 target_sources(ggml-cpu PRIVATE ${GGML_CPU_SOURCES})
 set_source_files_properties(${GGML_CPU_SOURCES} PROPERTIES COMPILE_OPTIONS     "${ARCH_FLAGS}")
 set_source_files_properties(${GGML_CPU_SOURCES} PROPERTIES COMPILE_DEFINITIONS "${ARCH_DEFINITIONS}")
 # the feature detection code must be compiled without any architecture flags
 target_sources(ggml-cpu PRIVATE cpu-feats-x86.cpp)
 # target_sources(ggml-cpu PRIVATE cpu-feats-arm.cpp) # TODO: ARM feature detection
 if (EMSCRIPTEN)
    set_target_properties(ggml-cpu PROPERTIES COMPILE_FLAGS "-msimd128")
 endif()
--- a/ggml/src/ggml-cpu/cpu-feats-x86.cpp
+++ b/ggml/src/ggml-cpu/cpu-feats-x86.cpp
@ -1,4 +1,3 @@
 #include "ggml-cpu.h"
 #include "ggml-backend-impl.h"
 #if defined(__x86_64__) || (defined(_MSC_VER) && defined(_M_AMD64))
@ -13,6 +12,7 @@
 #include <array>
 #include <string>
 // ref: https://cdrdv2-public.intel.com/782156/325383-sdm-vol-2abcd.pdf
 struct cpuid_x86 {
    bool SSE3(void) { return f_1_ecx[0]; }
    bool PCLMULQDQ(void) { return f_1_ecx[1]; }
@ -50,11 +50,15 @@ struct cpuid_x86 {
    bool INVPCID(void) { return f_7_ebx[10]; }
    bool RTM(void) { return is_intel && f_7_ebx[11]; }
    bool AVX512F(void) { return f_7_ebx[16]; }
    bool AVX512DQ(void) { return f_7_ebx[17]; }
    bool RDSEED(void) { return f_7_ebx[18]; }
    bool ADX(void) { return f_7_ebx[19]; }
    bool AVX512PF(void) { return f_7_ebx[26]; }
    bool AVX512ER(void) { return f_7_ebx[27]; }
    bool AVX512CD(void) { return f_7_ebx[28]; }
    bool AVX512BW(void) { return f_7_ebx[30]; }
    bool AVX512VL(void) { return f_7_ebx[31]; }
    bool SHA(void) { return f_7_ebx[29]; }
    bool PREFETCHWT1(void) { return f_7_ecx[0]; }
@ -259,36 +263,57 @@ void test_x86_is() {
 static int ggml_backend_cpu_x86_score() {
    // FIXME: this does not check for OS support
    cpuid_x86 is;
    // if the CPU backend was built with any features not supported by the current CPU, it cannot be used
    if (ggml_cpu_has_fma() && !is.FMA()) { return 0; }
    if (ggml_cpu_has_f16c() && !is.F16C()) { return 0; }
    if (ggml_cpu_has_ssse3() && !is.SSSE3()) { return 0; }
    if (ggml_cpu_has_sse3() && !is.SSE3()) { return 0; }
    if (ggml_cpu_has_avx() && !is.AVX()) { return 0; }
    if (ggml_cpu_has_avx_vnni() && !is.AVX_VNNI()) { return 0; }
    if (ggml_cpu_has_avx2() && !is.AVX2()) { return 0; }
    if (ggml_cpu_has_avx512() && !is.AVX512F()) { return 0; }
    if (ggml_cpu_has_avx512_vbmi() && !is.AVX512_VBMI()) { return 0; }
    if (ggml_cpu_has_avx512_bf16() && !is.AVX512_BF16()) { return 0; }
    if (ggml_cpu_has_avx512_vnni() && !is.AVX512_VNNI()) { return 0; }
    if (ggml_cpu_has_amx_int8() && !is.AMX_INT8()) { return 0; }
    // calculate a backend score based on the supported features
    // more important features have a higher weight
    int score = 0;
-    score +=  ggml_cpu_has_fma        () * 1;
+    cpuid_x86 is;
-    score +=  ggml_cpu_has_f16c       () * 1<<1;
+
-    score +=  ggml_cpu_has_ssse3      () * 1<<2;
+#ifdef GGML_FMA
-    score +=  ggml_cpu_has_sse3       () * 1<<3;
+    if (!is.FMA()) { return 0; }
-    score +=  ggml_cpu_has_avx_vnni   () * 1<<4;
+    score += 1;
-    score +=  ggml_cpu_has_avx        () * 1<<5;
+#endif
-    score +=  ggml_cpu_has_avx2       () * 1<<6;
+#ifdef GGML_F16C
-    score +=  ggml_cpu_has_avx512     () * 1<<7;
+    if (!is.F16C()) { return 0; }
-    // score +=  ggml_cpu_has_avx512_vbmi() * 1<<8; // not used
+    score += 1<<1;
-    score +=  ggml_cpu_has_avx512_bf16() * 1<<9;
+#endif
-    score +=  ggml_cpu_has_avx512_vnni() * 1<<10;
+#ifdef GGML_SSE42
-    score +=  ggml_cpu_has_amx_int8   () * 1<<11;
+    if (!is.SSE42()) { return 0; }
    score += 1<<2;
 #endif
 #ifdef GGML_AVX
    if (!is.AVX()) { return 0; }
    score += 1<<4;
 #endif
 #ifdef GGML_AVX2
    if (!is.AVX2()) { return 0; }
    score += 1<<5;
 #endif
 #ifdef GGML_AVX_VNNI
    if (!is.AVX_VNNI()) { return 0; }
    score += 1<<6;
 #endif
 #ifdef GGML_AVX512
    if (!is.AVX512F()) { return 0; }
    if (!is.AVX512CD()) { return 0; }
    if (!is.AVX512VL()) { return 0; }
    if (!is.AVX512DQ()) { return 0; }
    if (!is.AVX512BW()) { return 0; }
    score += 1<<7;
 #endif
 #ifdef GGML_AVX512_VBMI
    if (!is.AVX512_VBMI()) { return 0; }
    score += 1<<8;
 #endif
 #ifdef GGML_AVX512_BF16
    if (!is.AVX512_BF16()) { return 0; }
    score += 1<<9;
 #endif
 #ifdef GGML_AVX512_VNNI
    if (!is.AVX512_VNNI()) { return 0; }
    score += 1<<10;
 #endif
 #ifdef GGML_AMX_INT8
    if (!is.AMX_INT8()) { return 0; }
    score += 1<<11;
 #endif
    return score;
 }
--- a/ggml/src/ggml-cpu/ggml-cpu.c
+++ b/ggml/src/ggml-cpu/ggml-cpu.c
@ -756,7 +756,7 @@ do {                                                              \
 #define GGML_F32Cx8_LOAD(x)     _mm256_cvtph_ps(_mm_loadu_si128((const __m128i *)(x)))
 #define GGML_F32Cx8_STORE(x, y) _mm_storeu_si128((__m128i *)(x), _mm256_cvtps_ph(y, 0))
 #else
-static inline __m256 __avx_f32cx8_load(ggml_fp16_t *x) {
+static inline __m256 __avx_f32cx8_load(const ggml_fp16_t * x) {
    float tmp[8];
    for (int i = 0; i < 8; i++) {
--- a/ggml/src/ggml-cpu/ggml-cpu.cpp
+++ b/ggml/src/ggml-cpu/ggml-cpu.cpp
@ -641,7 +641,15 @@ static ggml_backend_feature * ggml_backend_cpu_get_features(ggml_backend_reg_t r
        if (ggml_cpu_has_llamafile()) {
            features.push_back({ "LLAMAFILE", "1" });
        }
-        // TODO: rename this
+    #ifdef GGML_USE_ACCELERATE
        features.push_back({ "ACCELERATE", "1" });
    #endif
    #ifdef GGML_USE_CPU_HBM
        features.push_back({ "CPU_HBM", "1" });
    #endif
    #ifdef GGML_USE_OPENMP
        features.push_back({ "OPENMP", "1" });
    #endif
    #ifdef GGML_USE_CPU_AARCH64
        features.push_back({ "AARCH64_REPACK", "1" });
    #endif
--- a/scripts/build-cpu.sh
+++ b/scripts/build-cpu.sh
@ -1,12 +0,0 @@
 #!/bin/bash
 name="$1"
 args="${@:2}"
 echo "Building $name with args: $args"
 rm -fr build-cpu-$1
 cmake -S . -B build-cpu-$1 -DGGML_BACKEND_DL=ON -DGGML_NATIVE=OFF $args
 cmake --build build-cpu-$1 --config Release -t ggml-cpu -j $(nproc)
 cp build-cpu-$1/bin/libggml-cpu.so ./libggml-cpu-$1.so
 rm -fr build-cpu-$1