cast f32 and f16

alex-spacemit · alex-spacemit · commit 7ff75500f6bc · 2025-04-29T06:30:16.000Z
Change-Id: I01ff87e2403cb5a30a578fa48437bb505ba556da
diff --git a/cmake/riscv64-spacemit-linux-gnu-gcc.cmake b/cmake/riscv64-spacemit-linux-gnu-gcc.cmake
@@ -21,18 +21,11 @@ set(CMAKE_FIND_ROOT_PATH "${RISCV_ROOT_PATH}/riscv64-unknown-linux-gnu")
 set(CMAKE_SYSROOT "${RISCV_ROOT_PATH}/sysroot")
 endif()
 
-if(NOT DEFINED CMAKE_CXX_FLAGS)
-    set(CMAKE_CXX_FLAGS "-march=rv64gcv_zfh_zba")
-endif()
-
-if(NOT DEFINED CMAKE_CXX_FLAGS)
-    set(CMAKE_C_FLAGS "-march=rv64gcv_zfh_zba")
-endif()
-
 set(CMAKE_FIND_ROOT_PATH_MODE_PROGRAM NEVER)
 set(CMAKE_FIND_ROOT_PATH_MODE_LIBRARY ONLY)
 set(CMAKE_FIND_ROOT_PATH_MODE_INCLUDE ONLY)
 set(CMAKE_FIND_ROOT_PATH_MODE_PACKAGE ONLY)
-set(CMAKE_C_FLAGS "-march=rv64gcv_zfh_zba -latomic -mabi=lp64d ${CMAKE_C_FLAGS}")
-set(CMAKE_CXX_FLAGS "-march=rv64gcv_zfh_zba -latomic -mabi=lp64d ${CXX_FLAGS}")
+set(CMAKE_C_FLAGS "-march=rv64gcv_zfh_zba_zicbop -mabi=lp64d ${CMAKE_C_FLAGS}")
+set(CMAKE_CXX_FLAGS "-march=rv64gcv_zfh_zba_zicbop -mabi=lp64d ${CXX_FLAGS}")
+set(CMAKE_EXE_LINKER_FLAGS "${CMAKE_EXE_LINKER_FLAGS} -latomic")
 add_definitions(-D__fp16=_Float16)
diff --git a/ggml/src/ggml-cpu/ggml-cpu-riscv64-spacemit.cpp b/ggml/src/ggml-cpu/ggml-cpu-riscv64-spacemit.cpp
@@ -1049,4 +1049,16 @@ void ggml_vec_cpy_rvv(void* dst, const void* src, size_t size) {
 #if defined(__riscv) && defined(__riscv_v)
   MlasCopy(dst, src, size);
 #endif
+}
+
+void ggml_cpu_fp16_to_fp32_rvv(const ggml_fp16_t * x, float * y, int64_t n) {
+#if defined(__riscv) && defined(__riscv_v)
+  GetMlasPlatform().CastF16ToF32Kernel(x, y, n);
+#endif
+}
+
+void ggml_cpu_fp32_to_fp16_rvv(const float * x, ggml_fp16_t * y, int64_t n) {
+#if defined(__riscv) && defined(__riscv_v)
+  GetMlasPlatform().CastF32ToF16Kernel(x, y, n);
+#endif
 }
diff --git a/ggml/src/ggml-cpu/ggml-cpu-riscv64-spacemit.h b/ggml/src/ggml-cpu/ggml-cpu-riscv64-spacemit.h
@@ -36,6 +36,12 @@ void ggml_vec_cpy_rvv(void* dst, const void* src, size_t size);
 
 void ggml_vec_mad_f16_hp_rvv(const void* x, void* y, float scalar, int size);
 
+void ggml_vec_silu_f32_rvv(const float* lhs, float* out, size_t n);
+
+void ggml_cpu_fp16_to_fp32_rvv(const ggml_fp16_t * x, float * y, int64_t n);
+
+void ggml_cpu_fp32_to_fp16_rvv(const float * x, ggml_fp16_t * y, int64_t n);
+
 #ifdef __cplusplus
 }
 #endif
diff --git a/ggml/src/ggml-cpu/ggml-cpu.c b/ggml/src/ggml-cpu/ggml-cpu.c
@@ -3161,7 +3161,6 @@ enum ggml_status ggml_graph_compute_with_ctx(struct ggml_context * ctx, struct g
     struct ggml_cplan cplan = ggml_graph_plan(cgraph, n_threads, NULL);
 
     cplan.work_data = (uint8_t *)ggml_new_buffer(ctx, cplan.work_size);
-    printf("cplan.work_data %p\n", cplan.work_data);
     return ggml_graph_compute(cgraph, &cplan);
 }
 
@@ -3185,6 +3184,9 @@ void ggml_cpu_fp32_to_fp16(const float * x, ggml_fp16_t * y, int64_t n) {
         __m128i y_vec = _mm_cvtps_ph(x_vec, _MM_FROUND_TO_NEAREST_INT);
         _mm_storel_epi64((__m128i *)(y + i), y_vec);
     }
+#elif defined(GGML_USE_CPU_RISCV64_SPACEMIT)
+    ggml_cpu_fp32_to_fp16_rvv(x, y, n);
+    i += n;
 #endif
     for (; i < n; ++i) {
         y[i] = GGML_FP32_TO_FP16(x[i]);
@@ -3211,6 +3213,9 @@ void ggml_cpu_fp16_to_fp32(const ggml_fp16_t * x, float * y, int64_t n) {
         __m128 y_vec = _mm_cvtph_ps(x_vec);
         _mm_storeu_ps(y + i, y_vec);
     }
+#elif defined(GGML_USE_CPU_RISCV64_SPACEMIT)
+    ggml_cpu_fp16_to_fp32_rvv(x, y, n);
+    i += n;
 #endif
     for (; i < n; ++i) {
         y[i] = GGML_FP16_TO_FP32(x[i]);
diff --git a/ggml/src/ggml-cpu/ops.cpp b/ggml/src/ggml-cpu/ops.cpp
@@ -1016,10 +1016,17 @@ static void ggml_compute_forward_dup_bytes(
         for (int64_t i03 = 0; i03 < ne03; i03++) {
             for (int64_t i02 = 0; i02 < ne02; i02++) {
                 for (int64_t i01 = ir0; i01 < ir1; i01++) {
+#ifdef GGML_USE_CPU_RISCV64_SPACEMIT
+                    ggml_vec_cpy_rvv(
+                        ((char *)  dst->data + i01*nb1  + i02*nb2  + i03*nb3),
+                        ((char *) src0->data + i01*nb01 + i02*nb02 + i03*nb03),
+                        rs);
+#else
                     memcpy(
                         ((char *)  dst->data + i01*nb1  + i02*nb2  + i03*nb3),
                         ((char *) src0->data + i01*nb01 + i02*nb02 + i03*nb03),
                         rs);
+#endif
                 }
             }
         }
diff --git a/ggml/src/ggml-cpu/vec.cpp b/ggml/src/ggml-cpu/vec.cpp
@@ -2,10 +2,6 @@
 
 #include <cassert>
 
-#ifdef GGML_USE_CPU_RISCV64_SPACEMIT
-#include "ggml-cpu-riscv64-spacemit.h"
-#endif
-
 #if defined(_MSC_VER)
 // disable "possible loss of data" to avoid hundreds of casts
 // we should just be careful :)
@@ -200,6 +196,9 @@ void ggml_vec_silu_f32(const int n, float * y, const float * x) {
     for (; i + 3 < n; i += 4) {
         vst1q_f32(y + i, ggml_v_silu(vld1q_f32(x + i)));
     }
+#elif defined(GGML_USE_CPU_RISCV64_SPACEMIT)
+    ggml_vec_silu_f32_rvv(x, y, n);
+    i += n;
 #endif
     for (; i < n; ++i) {
         y[i] = ggml_silu_f32(x[i]);
diff --git a/ggml/src/ggml-cpu/vec.h b/ggml/src/ggml-cpu/vec.h
@@ -6,6 +6,10 @@
 #include "simd-mappings.h"
 #include "ggml.h"
 
+#ifdef GGML_USE_CPU_RISCV64_SPACEMIT
+#include "ggml-cpu-riscv64-spacemit.h"
+#endif
+
 #if defined(GGML_USE_ACCELERATE)
 #include <Accelerate/Accelerate.h>
 #endif
@@ -54,7 +58,13 @@ inline static void ggml_vec_cpy_i32(const int n, int32_t * y, const int32_t * x)
 
 inline static void ggml_vec_set_f16(const int n, ggml_fp16_t * x, const ggml_fp16_t v) { for (int i = 0; i < n; ++i) x[i] = v; }
 inline static void ggml_vec_set_bf16(const int n, ggml_bf16_t * x, const ggml_bf16_t v) { for (int i = 0; i < n; ++i) x[i] = v; }
+#ifdef GGML_USE_CPU_RISCV64_SPACEMIT
+inline static void ggml_vec_add_f32 (const int n, float * z, const float * x, const float * y) {
+    ggml_vec_add_f32_rvv(x, y, z, n);
+}
+#else
 inline static void ggml_vec_add_f32 (const int n, float * z, const float * x, const float * y) { for (int i = 0; i < n; ++i) z[i]  = x[i] + y[i]; }
+#endif
 inline static void ggml_vec_add_f16 (const int n, ggml_fp16_t * z, const ggml_fp16_t * x, const ggml_fp16_t * y) {
     for (int i = 0; i < n; ++i) {
         z[i] = GGML_FP32_TO_FP16(GGML_FP16_TO_FP32(x[i]) + GGML_FP16_TO_FP32(y[i]));
@@ -77,8 +87,13 @@ inline static void ggml_vec_neg_f16 (const int n, ggml_fp16_t * y, const ggml_fp
         y[i] = GGML_FP32_TO_FP16(-GGML_FP16_TO_FP32(x[i]));
     }
 }
-
+#ifdef GGML_USE_CPU_RISCV64_SPACEMIT
+inline static void ggml_vec_mul_f32 (const int n, float * z, const float * x, const float * y) {
+    ggml_vec_mul_f32_rvv(x, y, z, n);
+}
+#else
 inline static void ggml_vec_mul_f32 (const int n, float * z, const float * x, const float * y) { for (int i = 0; i < n; ++i) z[i]  = x[i]*y[i];   }
+#endif
 inline static void ggml_vec_mul_f16 (const int n, ggml_fp16_t * z, const ggml_fp16_t * x, const ggml_fp16_t * y) {
     for (int i = 0; i < n; ++i) {
         z[i] = GGML_FP32_TO_FP16(GGML_FP16_TO_FP32(x[i]) * GGML_FP16_TO_FP32(y[i]));
@@ -200,6 +215,9 @@ inline static void ggml_vec_mad_f16(const int n, ggml_fp16_t * GGML_RESTRICT y,
     for (int i = np; i < n; ++i) {
         y[i] = GGML_FP32_TO_FP16(GGML_FP16_TO_FP32(y[i]) + GGML_FP16_TO_FP32(x[i])*v);
     }
+#elif defined(GGML_USE_CPU_RISCV64_SPACEMIT)
+    ggml_vec_mad_f16_hp_rvv(x, y, v, n);
+    return;
 #else
     // scalar
     for (int i = 0; i < n; ++i) {
@@ -284,6 +302,8 @@ inline static void ggml_vec_scale_f32(const int n, float * y, const float   v) {
     for (int i = np; i < n; ++i) {
         y[i] *= v;
     }
+#elif defined(GGML_USE_CPU_RISCV64_SPACEMIT)
+    ggml_vec_scale_f32_rvv(y, v, y, n);
 #else
     // scalar
     for (int i = 0; i < n; ++i) {
@@ -777,6 +797,8 @@ inline static void ggml_vec_max_f32(const int n, float * s, const float * x) {
         max = MAX(max, x[i]);
     }
     *s = max;
+#elif defined(GGML_USE_CPU_RISCV64_SPACEMIT)
+    ggml_vec_max_f32_rvv(n, s, x);
 #else
     vDSP_maxv(x, 1, s, n);
 #endif
diff --git a/scripts/build-riscv64-spacemit.sh b/scripts/build-riscv64-spacemit.sh
@@ -8,6 +8,7 @@ cmake -B build-riscv64-spacemit \
     -DCMAKE_BUILD_TYPE=Release \
     -DGGML_CPU_RISCV64_SPACEMIT=ON \
     -DLLAMA_CURL=OFF \
+    -DGGML_RV_ZFH=ON \
     -DRISCV64_SPACEMIT_IME_SPEC=RISCV64_SPACEMIT_IME1 \
     -DCMAKE_TOOLCHAIN_FILE=${SCRIPTS_DIR}/../cmake/riscv64-spacemit-linux-gnu-gcc.cmake \
     -DCMAKE_INSTALL_PREFIX=build-riscv64-spacemit/installed

Original file line number	Diff line number	Diff line change
`@@ -1016,10 +1016,17 @@ static void ggml_compute_forward_dup_bytes(`
`1016`	`1016`	`for (int64_t i03 = 0; i03 < ne03; i03++) {`
`1017`	`1017`	`for (int64_t i02 = 0; i02 < ne02; i02++) {`
`1018`	`1018`	`for (int64_t i01 = ir0; i01 < ir1; i01++) {`
	`1019`	`+#ifdef GGML_USE_CPU_RISCV64_SPACEMIT`
	`1020`	`+ ggml_vec_cpy_rvv(`
	`1021`	`+ ((char ) dst->data + i01nb1 + i02nb2 + i03nb3),`
	`1022`	`+ ((char ) src0->data + i01nb01 + i02nb02 + i03nb03),`
	`1023`	`+ rs);`
	`1024`	`+#else`
`1019`	`1025`	`memcpy(`
`1020`	`1026`	`((char ) dst->data + i01nb1 + i02nb2 + i03nb3),`
`1021`	`1027`	`((char ) src0->data + i01nb01 + i02nb02 + i03nb03),`
`1022`	`1028`	`rs);`
	`1029`	`+#endif`
`1023`	`1030`	`}`
`1024`	`1031`	`}`
`1025`	`1032`	`}`