Switch to HalfFloatArray for model weights

mikepapadim · mikepapadim · commit 4bed4e243d24 · 2025-05-22T17:17:49.000+03:00
diff --git a/src/main/java/com/example/loader/weights/ModelLoader.java b/src/main/java/com/example/loader/weights/ModelLoader.java
@@ -16,8 +16,10 @@
 import com.example.inference.operation.RoPE;
 import com.example.tokenizer.impl.Tokenizer;
 import com.example.tokenizer.vocabulary.Vocabulary;
+import uk.ac.manchester.tornado.api.types.HalfFloat;
 import uk.ac.manchester.tornado.api.types.arrays.ByteArray;
 import uk.ac.manchester.tornado.api.types.arrays.FloatArray;
+import uk.ac.manchester.tornado.api.types.arrays.HalfFloatArray;
 
 import java.io.IOException;
 import java.lang.foreign.MemorySegment;
@@ -103,15 +105,16 @@ private static Weights createTornadoVMWeights(Map<String, GGMLTensorEntry> tenso
             GGMLTensorEntry outputWeight) {
         return new Weights(
                 // Load directly to TornadoVM format
-                loadTensorAsFloatArray(tokenEmbeddings), loadArrayAsFloatArrayFromBuffer(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_norm.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_q.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_k.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_v.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_output.weight")),
+                loadTensorAsFloatArray(tokenEmbeddings),
+                loadArrayAsFloatArrayFromBuffer(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_norm.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_q.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_k.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_v.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".attn_output.weight")),
                 loadArrayAsFloatArrayFromBuffer(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_norm.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_gate.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_down.weight")),
-                loadArrayAsFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_up.weight")), floatBufferToFloatArray(tensorEntries.get("output_norm.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_gate.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_down.weight")),
+                loadArrayAsHalfFloatArray(config.numberOfLayers, i -> tensorEntries.get("blk." + i + ".ffn_up.weight")), floatBufferToFloatArray(tensorEntries.get("output_norm.weight")),
                 FloatArray.fromArray(ropeFreqs.first()), FloatArray.fromArray(ropeFreqs.second()), createByteArrayFromTensor(outputWeight), outputWeight.ggmlType());
     }
 
@@ -140,6 +143,14 @@ private static FloatArray[] loadArrayAsFloatArray(int size, IntFunction<GGMLTens
         return array;
     }
 
+    private static HalfFloatArray[] loadArrayAsHalfFloatArray(int size, IntFunction<GGMLTensorEntry> getTensorEntry) {
+        HalfFloatArray[] array = new HalfFloatArray[size];
+        for (int i = 0; i < size; i++) {
+            array[i] = loadTensorAsHalfFloatArray(getTensorEntry.apply(i));
+        }
+        return array;
+    }
+
     private static FloatArray floatBufferToFloatArray(GGMLTensorEntry tensorEntry) {
         if (tensorEntry.ggmlType() == GGMLType.F32) {
             FloatBuffer buffer = tensorEntry.memorySegment().asByteBuffer().order(ByteOrder.LITTLE_ENDIAN).asFloatBuffer();
@@ -149,6 +160,7 @@ private static FloatArray floatBufferToFloatArray(GGMLTensorEntry tensorEntry) {
         }
     }
 
+
     private static FloatArray[] loadArrayAsFloatArrayFromBuffer(int size, IntFunction<GGMLTensorEntry> getTensorEntry) {
         FloatArray[] array = new FloatArray[size];
         for (int i = 0; i < size; i++) {
@@ -182,6 +194,30 @@ private static FloatArray loadTensorAsFloatArray(GGMLTensorEntry entry) {
         }
     }
 
+    private static HalfFloatArray loadTensorAsHalfFloatArray(GGMLTensorEntry entry) {
+        if (entry.ggmlType() == GGMLType.F32) {
+            // For F32, we can directly create FloatArray from memory
+//            FloatBuffer buffer = entry.memorySegment().asByteBuffer().order(ByteOrder.LITTLE_ENDIAN).asFloatBuffer();
+//            FloatArray array = new FloatArray(buffer.remaining());
+//            for (int i = 0; i < buffer.remaining(); i++) {
+//                array.set(i, buffer.get());
+//            }
+//            return array
+            //           ;
+            System.out.println("Loading F32 tensor as HalfFloatArray");
+            return  null;
+        } else {
+            // For quantized formats, we need to load through FloatTensor
+            FloatTensor tensor = loadQuantized(entry);
+            HalfFloatArray array = new HalfFloatArray(tensor.size());
+            for (int i = 0; i < tensor.size(); i++) {
+                HalfFloat x = new HalfFloat(tensor.getFloat(i));
+                array.set(i, x);
+            }
+            return array;
+        }
+    }
+
     public static float getFloat(int index, int size, MemorySegment memorySegment) {
         assert 0 <= index && index < size;
         int blockIndex = index / GGMLType.Q4_0.getBlockSize();
diff --git a/src/main/java/com/example/loader/weights/Weights.java b/src/main/java/com/example/loader/weights/Weights.java
@@ -3,8 +3,10 @@
 import com.example.LlamaApp;
 import com.example.core.model.GGMLType;
 import com.example.core.model.tensor.FloatTensor;
+import uk.ac.manchester.tornado.api.types.HalfFloat;
 import uk.ac.manchester.tornado.api.types.arrays.ByteArray;
 import uk.ac.manchester.tornado.api.types.arrays.FloatArray;
+import uk.ac.manchester.tornado.api.types.arrays.HalfFloatArray;
 
 import java.nio.FloatBuffer;
 
@@ -34,15 +36,15 @@ public class Weights {
     public final FloatBuffer freq_cis_imag; // (seq_len, head_size/2)
     //    // Layered Data structures
     public FloatArray[] rms_att_weightLayered; // (layer, dim) rmsnorm weights
-    public FloatArray[] wqLayered; // (layer, n_heads * head_size)
-    public FloatArray[] wkLayered; // (layer, n_kv_heads, head_size)
-    public FloatArray[] wvLayered; // (layer, n_kv_heads * head_size)
-    public FloatArray[] woLayered; // (layer, n_heads * head_size, dim)
+    public HalfFloatArray[] wqLayered; // (layer, n_heads * head_size)
+    public HalfFloatArray[] wkLayered; // (layer, n_kv_heads, head_size)
+    public HalfFloatArray[] wvLayered; // (layer, n_kv_heads * head_size)
+    public HalfFloatArray[] woLayered; // (layer, n_heads * head_size, dim)
     public FloatArray[] rms_ffn_weightLayered; // (layer, dim)
-    public FloatArray[] w1Layered; // (layer, hidden_dim, dim)
-    public FloatArray[] w2Layered; // (layer, dim, hidden_dim)
+    public HalfFloatArray[] w1Layered; // (layer, hidden_dim, dim)
+    public HalfFloatArray[] w2Layered; // (layer, dim, hidden_dim)
     //
-    public FloatArray[] w3Layered; // (layer, hidden_dim, dim)
+    public HalfFloatArray[] w3Layered; // (layer, hidden_dim, dim)
     public FloatArray rms_final_weight_as_floatArray;
     public FloatArray tokenEmbeddingTable; // (vocab_size, dim)
     public FloatArray freq_cis_realFlat; // (seq_len, head_size/2)
@@ -115,9 +117,10 @@ public Weights(FloatTensor token_embedding_table, FloatBuffer[] rms_att_weight,
     /**
      * Constructor for TornadoVM mode
      */
-    public Weights(FloatArray tokenEmbeddingTable, FloatArray[] rms_att_weightLayered,
-            FloatArray[] wqLayered, FloatArray[] wkLayered, FloatArray[] wvLayered, FloatArray[] woLayered,
-            FloatArray[] rms_ffn_weightLayered, FloatArray[] w1Layered, FloatArray[] w2Layered, FloatArray[] w3Layered,
+    public Weights(FloatArray tokenEmbeddingTable,
+            FloatArray[] rms_att_weightLayered,
+            HalfFloatArray[] wqLayered, HalfFloatArray[] wkLayered, HalfFloatArray[] wvLayered, HalfFloatArray[] woLayered,
+            FloatArray[] rms_ffn_weightLayered, HalfFloatArray[] w1Layered, HalfFloatArray[] w2Layered, HalfFloatArray[] w3Layered,
             FloatArray rms_final_weight_as_floatArray, FloatArray freq_cis_realFlat, FloatArray freq_cis_imagFlat,
             ByteArray wclsByteArray, GGMLType weightType) {
         // Standard format (null when using TornadoVM)
diff --git a/src/main/java/com/example/tornadovm/TransformerComputeKernelsLayered.java b/src/main/java/com/example/tornadovm/TransformerComputeKernelsLayered.java
@@ -3,7 +3,9 @@
 import uk.ac.manchester.tornado.api.KernelContext;
 import uk.ac.manchester.tornado.api.annotations.Parallel;
 import uk.ac.manchester.tornado.api.math.TornadoMath;
+import uk.ac.manchester.tornado.api.types.HalfFloat;
 import uk.ac.manchester.tornado.api.types.arrays.FloatArray;
+import uk.ac.manchester.tornado.api.types.arrays.HalfFloatArray;
 import uk.ac.manchester.tornado.api.types.arrays.IntArray;
 
 public class TransformerComputeKernelsLayered {
@@ -454,6 +456,24 @@ public static void matrixVectorGeneric(KernelContext context, FloatArray x, Floa
         }
     }
 
+    public static void matrixVectorGeneric(KernelContext context, FloatArray x, FloatArray hb, HalfFloatArray w, int n, int d, int localWorkGroupSize) {
+        // One row per workgroup (not per thread)
+        int rowId = context.groupIdx;
+        int localId = context.localIdx;
+        int localSize = localWorkGroupSize;
+
+        // Early exit if this workgroup is beyond our output dimension
+        if (rowId >= d) {
+            return;
+        }
+        float sum = matrixVectorRowMajorOptimized(context, localSize, x, w, n, d);
+
+        // Thread 0 in each workgroup writes the final result
+        if (localId == 0) {
+            hb.set(rowId, sum);
+        }
+    }
+
     /**
      * Matrix-vector multiplication with residual connection.
      * Combines regular matrix multiplication with addition of existing values.
@@ -468,7 +488,7 @@ public static void matrixVectorGeneric(KernelContext context, FloatArray x, Floa
      * @param d Output dimension
      * @param localWorkGroupSize Work group size
      */
-    public static void matrixVectorGenericWithResidual(KernelContext context, FloatArray x, FloatArray hb, FloatArray w, int n, int d, int localWorkGroupSize) {
+    public static void matrixVectorGenericWithResidual(KernelContext context, FloatArray x, FloatArray hb, HalfFloatArray w, int n, int d, int localWorkGroupSize) {
         // One row per workgroup (not per thread)
         int rowId = context.groupIdx;
         int localId = context.localIdx;
@@ -504,7 +524,7 @@ public static void matrixVectorGenericWithResidual(KernelContext context, FloatA
      * @param d Hidden dimension
      * @param localWorkGroupSize Work group size
      */
-    public static void fusedFeedForwardWithSiLUAndGLUActivation(KernelContext context, FloatArray x, FloatArray hb, FloatArray w1, FloatArray w3, int n, int d, int localWorkGroupSize) {
+    public static void fusedFeedForwardWithSiLUAndGLUActivation(KernelContext context, FloatArray x, FloatArray hb, HalfFloatArray w1, HalfFloatArray w3, int n, int d, int localWorkGroupSize) {
         // One row per workgroup (not per thread)
         int rowId = context.groupIdx;
         int localId = context.localIdx;
@@ -597,4 +617,35 @@ public static float matrixVectorRowMajorOptimized(KernelContext context, int loc
 
         return localSum[0];
     }
+
+    public static float matrixVectorRowMajorOptimized(KernelContext context, int localSize, FloatArray x, HalfFloatArray w, int n, int d) {
+        int rowId = context.groupIdx;
+        int localId = context.localIdx;
+
+        // Allocate local memory for reduction
+        float[] localSum = context.allocateFloatLocalArray(localSize);
+
+        int rowOffset = rowId * n;
+
+        // Each thread calculates partial dot product
+        float partialSum = 0.0f;
+        for (int j = localId; j < n; j += localSize) {
+            int matrixIdx = rowOffset + j;
+            partialSum += w.get(matrixIdx).getFloat32() * x.get(j);
+        }
+
+        // Store partial sum in local memory
+        localSum[localId] = partialSum;
+        context.localBarrier();
+
+        // Parallel reduction within workgroup
+        for (int stride = localSize / 2; stride > 0; stride >>= 1) {
+            if (localId < stride) {
+                localSum[localId] += localSum[localId + stride];
+            }
+            context.localBarrier();
+        }
+
+        return localSum[0];
+    }
 }