Updated web tool example code

stephenchouca · stephenchouca · commit faa3868755bf · 2021-05-15T23:23:15.000-04:00
diff --git a/examples/mttkrp_full.c b/examples/mttkrp_full.c
@@ -9,6 +9,9 @@
 #include <math.h>
 #include <complex.h>
 #include <string.h>
+#if _OPENMP
+#include <omp.h>
+#endif
 #define TACO_MIN(_a,_b) ((_a) < (_b) ? (_a) : (_b))
 #define TACO_MAX(_a,_b) ((_a) > (_b) ? (_a) : (_b))
 #define TACO_DEREF(_a) (((___context___*)(*__ctx__))->_a)
@@ -26,6 +29,10 @@ typedef struct {
   int32_t      vals_size;     // values array size
 } taco_tensor_t;
 #endif
+#if !_OPENMP
+int omp_get_thread_num() { return 0; }
+int omp_get_max_threads() { return 1; }
+#endif
 int cmp(const void *a, const void *b) {
   return *((const int*)a) - *((const int*)b);
 }
diff --git a/examples/spadd_full.c b/examples/spadd_full.c
@@ -9,6 +9,9 @@
 #include <math.h>
 #include <complex.h>
 #include <string.h>
+#if _OPENMP
+#include <omp.h>
+#endif
 #define TACO_MIN(_a,_b) ((_a) < (_b) ? (_a) : (_b))
 #define TACO_MAX(_a,_b) ((_a) > (_b) ? (_a) : (_b))
 #define TACO_DEREF(_a) (((___context___*)(*__ctx__))->_a)
@@ -26,6 +29,10 @@ typedef struct {
   int32_t      vals_size;     // values array size
 } taco_tensor_t;
 #endif
+#if !_OPENMP
+int omp_get_thread_num() { return 0; }
+int omp_get_max_threads() { return 1; }
+#endif
 int cmp(const void *a, const void *b) {
   return *((const int*)a) - *((const int*)b);
 }
diff --git a/examples/spgemm_assembly.c b/examples/spgemm_assembly.c
@@ -17,12 +17,15 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   int32_t* restrict A2_nnz = 0;
   A2_nnz = (int32_t*)malloc(sizeof(int32_t) * B1_dimension);
 
+  int32_t* restrict qworkspace_index_list_all = 0;
+  qworkspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict qworkspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t qworkspace_index_list_size = 0;
-    int32_t* restrict qworkspace_index_list = 0;
-    qworkspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict qworkspace_already_set = calloc(C2_dimension, sizeof(bool));
+    int32_t* restrict qworkspace_index_list = qworkspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict qworkspace_already_set = qworkspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB = B2_pos[i]; kB < B2_pos[(i + 1)]; kB++) {
       int32_t k = B2_crd[kB];
       for (int32_t jC = C2_pos[k]; jC < C2_pos[(k + 1)]; jC++) {
@@ -41,10 +44,11 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       qworkspace_already_set[j] = 0;
     }
     A2_nnz[i] = tjA2_nnz_val;
-    free(qworkspace_index_list);
-    free(qworkspace_already_set);
   }
 
+  free(qworkspace_index_list_all);
+  free(qworkspace_already_set_all);
+
   A2_pos = (int32_t*)malloc(sizeof(int32_t) * (A1_dimension + 1));
   A2_pos[0] = 0;
   for (int32_t i = 0; i < A1_dimension; i++) {
@@ -53,12 +57,15 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   A2_crd = (int32_t*)malloc(sizeof(int32_t) * A2_pos[A1_dimension]);
   A_vals = (double*)malloc(sizeof(double) * A2_pos[A1_dimension]);
 
+  int32_t* restrict workspace_index_list_all = 0;
+  workspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict workspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t workspace_index_list_size = 0;
-    int32_t* restrict workspace_index_list = 0;
-    workspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict workspace_already_set = calloc(C2_dimension, sizeof(bool));
+    int32_t* restrict workspace_index_list = workspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict workspace_already_set = workspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB0 = B2_pos[i]; kB0 < B2_pos[(i + 1)]; kB0++) {
       int32_t k = B2_crd[kB0];
       for (int32_t jC0 = C2_pos[k]; jC0 < C2_pos[(k + 1)]; jC0++) {
@@ -79,10 +86,11 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       A2_crd[pA2] = j;
       workspace_already_set[j] = 0;
     }
-    free(workspace_index_list);
-    free(workspace_already_set);
   }
 
+  free(workspace_index_list_all);
+  free(workspace_already_set_all);
+
   for (int32_t p = 0; p < A1_dimension; p++) {
     A2_pos[A1_dimension - p] = A2_pos[((A1_dimension - p) - 1)];
   }
diff --git a/examples/spgemm_compute.c b/examples/spgemm_compute.c
@@ -15,14 +15,18 @@ int compute(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   int* restrict C2_crd = (int*)(C->indices[1][1]);
   double* restrict C_vals = (double*)(C->vals);
 
+  double* restrict workspace_all = 0;
+  int32_t* restrict workspace_index_list_all = 0;
+  workspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict workspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+  workspace_all = (double*)malloc(sizeof(double) * (C2_dimension * omp_get_max_threads()));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t workspace_index_list_size = 0;
-    double* restrict workspace = 0;
-    int32_t* restrict workspace_index_list = 0;
-    workspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict workspace_already_set = calloc(C2_dimension, sizeof(bool));
-    workspace = (double*)malloc(sizeof(double) * C2_dimension);
+    double* restrict workspace = workspace_all + C2_dimension * omp_get_thread_num();
+    int32_t* restrict workspace_index_list = workspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict workspace_already_set = workspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB = B2_pos[i]; kB < B2_pos[(i + 1)]; kB++) {
       int32_t k = B2_crd[kB];
       for (int32_t jC = C2_pos[k]; jC < C2_pos[(k + 1)]; jC++) {
@@ -46,11 +50,12 @@ int compute(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       A_vals[pA2] = workspace[j];
       workspace_already_set[j] = 0;
     }
-    free(workspace_index_list);
-    free(workspace_already_set);
-    free(workspace);
   }
 
+  free(workspace_index_list_all);
+  free(workspace_already_set_all);
+  free(workspace_all);
+
   for (int32_t p = 0; p < A1_dimension; p++) {
     A2_pos[A1_dimension - p] = A2_pos[((A1_dimension - p) - 1)];
   }
diff --git a/examples/spgemm_full.c b/examples/spgemm_full.c
@@ -9,6 +9,9 @@
 #include <math.h>
 #include <complex.h>
 #include <string.h>
+#if _OPENMP
+#include <omp.h>
+#endif
 #define TACO_MIN(_a,_b) ((_a) < (_b) ? (_a) : (_b))
 #define TACO_MAX(_a,_b) ((_a) > (_b) ? (_a) : (_b))
 #define TACO_DEREF(_a) (((___context___*)(*__ctx__))->_a)
@@ -26,6 +29,10 @@ typedef struct {
   int32_t      vals_size;     // values array size
 } taco_tensor_t;
 #endif
+#if !_OPENMP
+int omp_get_thread_num() { return 0; }
+int omp_get_max_threads() { return 1; }
+#endif
 int cmp(const void *a, const void *b) {
   return *((const int*)a) - *((const int*)b);
 }
@@ -122,14 +129,18 @@ int compute(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   int* restrict C2_crd = (int*)(C->indices[1][1]);
   double* restrict C_vals = (double*)(C->vals);
 
+  double* restrict workspace_all = 0;
+  int32_t* restrict workspace_index_list_all = 0;
+  workspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict workspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+  workspace_all = (double*)malloc(sizeof(double) * (C2_dimension * omp_get_max_threads()));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t workspace_index_list_size = 0;
-    double* restrict workspace = 0;
-    int32_t* restrict workspace_index_list = 0;
-    workspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict workspace_already_set = calloc(C2_dimension, sizeof(bool));
-    workspace = (double*)malloc(sizeof(double) * C2_dimension);
+    double* restrict workspace = workspace_all + C2_dimension * omp_get_thread_num();
+    int32_t* restrict workspace_index_list = workspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict workspace_already_set = workspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB = B2_pos[i]; kB < B2_pos[(i + 1)]; kB++) {
       int32_t k = B2_crd[kB];
       for (int32_t jC = C2_pos[k]; jC < C2_pos[(k + 1)]; jC++) {
@@ -153,11 +164,12 @@ int compute(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       A_vals[pA2] = workspace[j];
       workspace_already_set[j] = 0;
     }
-    free(workspace_index_list);
-    free(workspace_already_set);
-    free(workspace);
   }
 
+  free(workspace_index_list_all);
+  free(workspace_already_set_all);
+  free(workspace_all);
+
   for (int32_t p = 0; p < A1_dimension; p++) {
     A2_pos[A1_dimension - p] = A2_pos[((A1_dimension - p) - 1)];
   }
@@ -184,12 +196,15 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   int32_t* restrict A2_nnz = 0;
   A2_nnz = (int32_t*)malloc(sizeof(int32_t) * B1_dimension);
 
+  int32_t* restrict qworkspace_index_list_all = 0;
+  qworkspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict qworkspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t qworkspace_index_list_size = 0;
-    int32_t* restrict qworkspace_index_list = 0;
-    qworkspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict qworkspace_already_set = calloc(C2_dimension, sizeof(bool));
+    int32_t* restrict qworkspace_index_list = qworkspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict qworkspace_already_set = qworkspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB = B2_pos[i]; kB < B2_pos[(i + 1)]; kB++) {
       int32_t k = B2_crd[kB];
       for (int32_t jC = C2_pos[k]; jC < C2_pos[(k + 1)]; jC++) {
@@ -208,10 +223,11 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       qworkspace_already_set[j] = 0;
     }
     A2_nnz[i] = tjA2_nnz_val;
-    free(qworkspace_index_list);
-    free(qworkspace_already_set);
   }
 
+  free(qworkspace_index_list_all);
+  free(qworkspace_already_set_all);
+
   A2_pos = (int32_t*)malloc(sizeof(int32_t) * (A1_dimension + 1));
   A2_pos[0] = 0;
   for (int32_t i = 0; i < A1_dimension; i++) {
@@ -220,12 +236,15 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   A2_crd = (int32_t*)malloc(sizeof(int32_t) * A2_pos[A1_dimension]);
   A_vals = (double*)malloc(sizeof(double) * A2_pos[A1_dimension]);
 
+  int32_t* restrict workspace_index_list_all = 0;
+  workspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict workspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t workspace_index_list_size = 0;
-    int32_t* restrict workspace_index_list = 0;
-    workspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict workspace_already_set = calloc(C2_dimension, sizeof(bool));
+    int32_t* restrict workspace_index_list = workspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict workspace_already_set = workspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB0 = B2_pos[i]; kB0 < B2_pos[(i + 1)]; kB0++) {
       int32_t k = B2_crd[kB0];
       for (int32_t jC0 = C2_pos[k]; jC0 < C2_pos[(k + 1)]; jC0++) {
@@ -246,10 +265,11 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       A2_crd[pA2] = j;
       workspace_already_set[j] = 0;
     }
-    free(workspace_index_list);
-    free(workspace_already_set);
   }
 
+  free(workspace_index_list_all);
+  free(workspace_already_set_all);
+
   for (int32_t p = 0; p < A1_dimension; p++) {
     A2_pos[A1_dimension - p] = A2_pos[((A1_dimension - p) - 1)];
   }
@@ -281,12 +301,15 @@ int evaluate(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   int32_t* restrict A2_nnz = 0;
   A2_nnz = (int32_t*)malloc(sizeof(int32_t) * B1_dimension);
 
+  int32_t* restrict qworkspace_index_list_all = 0;
+  qworkspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict qworkspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t qworkspace_index_list_size = 0;
-    int32_t* restrict qworkspace_index_list = 0;
-    qworkspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict qworkspace_already_set = calloc(C2_dimension, sizeof(bool));
+    int32_t* restrict qworkspace_index_list = qworkspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict qworkspace_already_set = qworkspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB = B2_pos[i]; kB < B2_pos[(i + 1)]; kB++) {
       int32_t k = B2_crd[kB];
       for (int32_t jC = C2_pos[k]; jC < C2_pos[(k + 1)]; jC++) {
@@ -305,10 +328,11 @@ int evaluate(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       qworkspace_already_set[j] = 0;
     }
     A2_nnz[i] = tjA2_nnz_val;
-    free(qworkspace_index_list);
-    free(qworkspace_already_set);
   }
 
+  free(qworkspace_index_list_all);
+  free(qworkspace_already_set_all);
+
   A2_pos = (int32_t*)malloc(sizeof(int32_t) * (A1_dimension + 1));
   A2_pos[0] = 0;
   for (int32_t i = 0; i < A1_dimension; i++) {
@@ -317,14 +341,18 @@ int evaluate(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
   A2_crd = (int32_t*)malloc(sizeof(int32_t) * A2_pos[A1_dimension]);
   A_vals = (double*)malloc(sizeof(double) * A2_pos[A1_dimension]);
 
+  double* restrict workspace_all = 0;
+  int32_t* restrict workspace_index_list_all = 0;
+  workspace_index_list_all = (int32_t*)malloc(sizeof(int32_t) * (C2_dimension * omp_get_max_threads()));
+  bool* restrict workspace_already_set_all = calloc((C2_dimension * omp_get_max_threads()), sizeof(bool));
+  workspace_all = (double*)malloc(sizeof(double) * (C2_dimension * omp_get_max_threads()));
+
   #pragma omp parallel for schedule(runtime)
   for (int32_t i = 0; i < B1_dimension; i++) {
     int32_t workspace_index_list_size = 0;
-    double* restrict workspace = 0;
-    int32_t* restrict workspace_index_list = 0;
-    workspace_index_list = (int32_t*)malloc(sizeof(int32_t) * C2_dimension);
-    bool* restrict workspace_already_set = calloc(C2_dimension, sizeof(bool));
-    workspace = (double*)malloc(sizeof(double) * C2_dimension);
+    double* restrict workspace = workspace_all + C2_dimension * omp_get_thread_num();
+    int32_t* restrict workspace_index_list = workspace_index_list_all + C2_dimension * omp_get_thread_num();
+    bool* restrict workspace_already_set = workspace_already_set_all + C2_dimension * omp_get_thread_num();
     for (int32_t kB0 = B2_pos[i]; kB0 < B2_pos[(i + 1)]; kB0++) {
       int32_t k = B2_crd[kB0];
       for (int32_t jC0 = C2_pos[k]; jC0 < C2_pos[(k + 1)]; jC0++) {
@@ -350,11 +378,12 @@ int evaluate(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *C) {
       A_vals[pA2] = workspace[j];
       workspace_already_set[j] = 0;
     }
-    free(workspace_index_list);
-    free(workspace_already_set);
-    free(workspace);
   }
 
+  free(workspace_index_list_all);
+  free(workspace_already_set_all);
+  free(workspace_all);
+
   for (int32_t p = 0; p < A1_dimension; p++) {
     A2_pos[A1_dimension - p] = A2_pos[((A1_dimension - p) - 1)];
   }
diff --git a/examples/spmv_full.c b/examples/spmv_full.c
@@ -9,6 +9,9 @@
 #include <math.h>
 #include <complex.h>
 #include <string.h>
+#if _OPENMP
+#include <omp.h>
+#endif
 #define TACO_MIN(_a,_b) ((_a) < (_b) ? (_a) : (_b))
 #define TACO_MAX(_a,_b) ((_a) > (_b) ? (_a) : (_b))
 #define TACO_DEREF(_a) (((___context___*)(*__ctx__))->_a)
@@ -26,6 +29,10 @@ typedef struct {
   int32_t      vals_size;     // values array size
 } taco_tensor_t;
 #endif
+#if !_OPENMP
+int omp_get_thread_num() { return 0; }
+int omp_get_max_threads() { return 1; }
+#endif
 int cmp(const void *a, const void *b) {
   return *((const int*)a) - *((const int*)b);
 }
diff --git a/examples/ttv_assembly.c b/examples/ttv_assembly.c
@@ -23,8 +23,7 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *c) {
     int32_t tjA2_nnz_val = 0;
     for (int32_t jB = B2_pos[iB]; jB < B2_pos[(iB + 1)]; jB++) {
       bool qtkA_val = 0;
-      for (int32_t kB = B3_pos[jB]; kB < B3_pos[(jB + 1)]; kB++) {
-        int32_t k = B3_crd[kB];
+      if (B3_pos[jB] < B3_pos[(jB + 1)]) {
         qtkA_val = 1;
       }
       tjA2_nnz_val += (int32_t)qtkA_val;
@@ -47,8 +46,7 @@ int assemble(taco_tensor_t *A, taco_tensor_t *B, taco_tensor_t *c) {
     for (int32_t jB0 = B2_pos[iB0]; jB0 < B2_pos[(iB0 + 1)]; jB0++) {
       int32_t j = B2_crd[jB0];
       bool tkA_set = 0;
-      for (int32_t kB0 = B3_pos[jB0]; kB0 < B3_pos[(jB0 + 1)]; kB0++) {
-        int32_t k = B3_crd[kB0];
+      if (B3_pos[jB0] < B3_pos[(jB0 + 1)]) {
         tkA_set = 1;
       }
       if (tkA_set) {
diff --git a/examples/ttv_full.c b/examples/ttv_full.c