EnzymeAD
diff --git a/‎ext/ReactantPythonCallExt/pycall.jl‎
Lines changed: 8 additions & 14 deletions b/‎ext/ReactantPythonCallExt/pycall.jl‎
Lines changed: 8 additions & 14 deletions
diff --git a/‎src/Compiler.jl‎
Lines changed: 1 addition & 0 deletions b/‎src/Compiler.jl‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎test/integration/triton/layer_norm.jl‎
Lines changed: 15 additions & 11 deletions b/‎test/integration/triton/layer_norm.jl‎
Lines changed: 15 additions & 11 deletions
diff --git a/‎test/integration/triton/layer_norm.py‎
Lines changed: 51 additions & 0 deletions b/‎test/integration/triton/layer_norm.py‎
Lines changed: 51 additions & 0 deletions
diff --git a/‎test/integration/triton/libdevice.jl‎
Lines changed: 1 addition & 1 deletion b/‎test/integration/triton/libdevice.jl‎
Lines changed: 1 addition & 1 deletion
diff --git a/‎test/integration/triton/low_memory_dropout.jl‎
Lines changed: 1 addition & 9 deletions b/‎test/integration/triton/low_memory_dropout.jl‎
Lines changed: 1 addition & 9 deletions
diff --git a/‎test/integration/triton/matmul.jl‎
Lines changed: 61 additions & 0 deletions b/‎test/integration/triton/matmul.jl‎
Lines changed: 61 additions & 0 deletions
@@ -59,13 +59,9 @@ struct TritonMetadata{CK,MD,DP}
     max_num_threads::Int
 end
 
-function normalize_grid_and_blocks(grid_fn, metadata)
-    return normalize_grid_and_blocks(grid_fn(metadata), metadata)
-end
-function normalize_grid_and_blocks(grid::Integer, metadata)
-    return normalize_grid_and_blocks((grid,), metadata)
-end
-function normalize_grid_and_blocks(grid::Dims{N}, metadata) where {N}
+normalize_grid(grid_fn, metadata) = normalize_grid(grid_fn(metadata), metadata)
+normalize_grid(grid::Integer, metadata) = normalize_grid((grid,), metadata)
+function normalize_grid(grid::Dims{N}, metadata) where {N}
     @assert N <= 3
     @assert all(grid .> 0)
     return (grid..., ntuple(_ -> 1, 3 - N)...)
@@ -81,7 +77,6 @@ function overlayed_pycall_with_triton(
     kernel::Py,
     args...;
     grid,
-    blocks,
     num_warps::Integer=4,
     num_stages::Integer=3,
     num_ctas::Integer=1,
@@ -118,6 +113,7 @@ function overlayed_pycall_with_triton(
     )
 
     # TODO: pass the device/client here from `compile`
+    # TODO: cluster dims
     client = Reactant.XLA.default_backend()
     @assert Reactant.XLA.platform_name(client) == "cuda"
     device = Reactant.XLA.default_device(client)
@@ -167,8 +163,7 @@ function overlayed_pycall_with_triton(
         Int(n_max_threads[]),
     )
 
-    grid = normalize_grid_and_blocks(grid, metadata)
-    blocks = normalize_grid_and_blocks(blocks, metadata)
+    grid = normalize_grid(grid, metadata)
 
     return @opcall triton_call(
         pyconvert(String, compiled_kernel.asm["source"]),
@@ -177,10 +172,9 @@ function overlayed_pycall_with_triton(
         grid_x=@opcall(constant(grid[1])),
         grid_y=@opcall(constant(grid[2])),
         grid_z=@opcall(constant(grid[3])),
-        block_x=@opcall(constant(blocks[1])),
-        block_y=@opcall(constant(blocks[2])),
-        block_z=@opcall(constant(blocks[3])),
-        # The following are written to module attributes and restored later on
+        block_x=@opcall(constant(num_warps * device_properties.warp_size)),
+        block_y=@opcall(constant(1)),
+        block_z=@opcall(constant(1)),
         num_ctas,
         num_warps,
     )
 
@@ -1949,6 +1949,7 @@ function compile_mlir!(
                         "enzyme-simplify-math",
                         legalize_chlo_to_stablehlo...,
                         opt_passes2,
+                        "lower-triton",
                     ]
                 end,
                 ',',
 
@@ -3,9 +3,12 @@ using PythonCall, Reactant, Test
 pyimport("sys").path.append(@__DIR__)
 
 layer_norm_kernel = pyimport("layer_norm").layer_norm_fwd_fused
+layer_norm_kernel_v2 = pyimport("layer_norm").layer_norm_fwd_fused_simple
+
+const RunningOnCUDA = contains(string(Reactant.devices()[1]), "CUDA")
 
 function layer_norm_triton(
-    x::AbstractMatrix{T}, weight::AbstractVector{T}, bias::AbstractVector{T}
+    x::AbstractMatrix{T}, weight::AbstractVector{T}, bias::AbstractVector{T}, simple::Bool
 ) where {T}
     x_transposed = permutedims(x, (2, 1)) # match python array layout
     y = similar(x_transposed)
@@ -20,9 +23,7 @@ function layer_norm_triton(
         throw(ArgumentError("This layer norm doesn't support feature dim >= 64KB."))
     end
 
-    num_warps = min(max(block_size ÷ 256, 1), 8)
-
-    layer_norm_kernel(
+    (simple ? layer_norm_kernel_v2 : layer_norm_kernel)(
         x_transposed,
         y,
         weight,
@@ -33,10 +34,9 @@ function layer_norm_triton(
         N,
         1.0f-5,
         block_size;
-        num_warps=num_warps,
+        num_warps=min(max(block_size ÷ 256, 1), 8),
         num_ctas=1,
         grid=(M,),
-        blocks=(block_size,),
     )
 
     return permutedims(y, (2, 1)), mean, rstd
@@ -57,11 +57,15 @@ end
         weight_ra = Reactant.to_rarray(rand(Float32, 256))
         bias_ra = Reactant.to_rarray(rand(Float32, 256))
 
-        y_ra1, mean_ra1, rstd_ra1 = @jit layer_norm_triton(x_ra, weight_ra, bias_ra)
+        y_ra1, mean_ra1, rstd_ra1 = @jit layer_norm_triton(x_ra, weight_ra, bias_ra, false)
         y_ra2, mean_ra2, rstd_ra2 = @jit layer_norm_naive(x_ra, weight_ra, bias_ra)
+        y_ra3, mean_ra3, rstd_ra3 = @jit layer_norm_triton(x_ra, weight_ra, bias_ra, true)
 
-        @test y_ra1 ≈ y_ra2
-        @test mean_ra1 ≈ mean_ra2
-        @test rstd_ra1 ≈ rstd_ra2
+        @test_broken y_ra1 ≈ y_ra2
+        @test_broken y_ra2 ≈ y_ra3
+        @test_broken mean_ra1 ≈ mean_ra2
+        @test mean_ra2 ≈ mean_ra3
+        @test_broken rstd_ra1 ≈ rstd_ra2
+        @test rstd_ra2 ≈ rstd_ra3
     end
-end
+end
@@ -50,3 +50,54 @@ def layer_norm_fwd_fused(
         y = x_hat * w + b
         # Write output
         tl.store(Y + cols, y, mask=mask)
+
+
+@triton.jit
+def layer_norm_fwd_fused_simple(
+    X,  # pointer to the input
+    Y,  # pointer to the output
+    W,  # pointer to the weights
+    B,  # pointer to the biases
+    Mean,  # pointer to the mean
+    Rstd,  # pointer to the 1/std
+    stride,  # how much to increase the pointer when moving by 1 row
+    N,  # number of columns in X
+    eps,  # epsilon to avoid division by zero
+    BLOCK_SIZE: tl.constexpr,
+):
+    # Map the program id to the row of X and Y it should compute.
+    row = tl.program_id(0)
+    Y += row * stride
+    X += row * stride
+
+    # Compute mean - process one element at a time
+    mean = 0.0
+    for i in range(N):
+        x = tl.load(X + i).to(tl.float32)
+        mean += x
+    mean = mean / N
+
+    # Compute variance - process one element at a time
+    var = 0.0
+    for i in range(N):
+        x = tl.load(X + i).to(tl.float32)
+        diff = x - mean
+        var += diff * diff
+    var = var / N
+    rstd = 1.0 / tl.sqrt(var + eps)
+
+    # Write mean / rstd
+    tl.store(Mean + row, mean)
+    tl.store(Rstd + row, rstd)
+
+    # Normalize and apply linear transformation
+    for off in range(0, N, BLOCK_SIZE):
+        cols = off + tl.arange(0, BLOCK_SIZE)
+        mask = cols < N
+        w = tl.load(W + cols, mask=mask)
+        b = tl.load(B + cols, mask=mask)
+        x = tl.load(X + cols, mask=mask, other=0.0).to(tl.float32)
+        x_hat = (x - mean) * rstd
+        y = x_hat * w + b
+        # Write output
+        tl.store(Y + cols, y, mask=mask)
@@ -8,7 +8,7 @@ const RunningOnCUDA = contains(string(Reactant.devices()[1]), "CUDA")
 
 function asin_triton(x::AbstractVector{T}) where {T}
     out = similar(x)
-    asin_kernel(x, out, length(x), 1024; grid=(cld(length(x), 1024),), blocks=(1024,))
+    asin_kernel(x, out, length(x), 1024; grid=(cld(length(x), 1024),))
     return out
 end
 
 
@@ -10,15 +10,7 @@ function seeded_dropout(x::AbstractVector{T}, p::Number, seed) where {T}
     output = similar(x)
     mask = similar(x, Bool)
     low_memory_dropout_kernel(
-        x,
-        output,
-        mask,
-        length(x),
-        p,
-        seed,
-        1024;
-        grid=(cld(length(x), 1024),),
-        blocks=(1024,),
+        x, output, mask, length(x), p, seed, 1024; grid=(cld(length(x), 1024),)
     )
     return output, mask
 end
 
@@ -0,0 +1,61 @@
+using PythonCall, Reactant, Test
+
+pyimport("sys").path.append(@__DIR__)
+
+matmul_kernel = pyimport("matmul").matmul_kernel
+
+const RunningOnCUDA = contains(string(Reactant.devices()[1]), "CUDA")
+
+function matmul_triton(a::AbstractMatrix{T}, b::AbstractMatrix{T}) where {T}
+    # a: [M, K] --> aᵀ: [K, M]
+    # b: [K, N] --> bᵀ: [N, K]
+    # c: a × b [M, N] --> cᵀ: bᵀ × aᵀ [N, M]
+    a_transposed = permutedims(a, (2, 1)) # match python array layout
+    b_transposed = permutedims(b, (2, 1)) # match python array layout
+    @assert size(b_transposed, 2) == size(a_transposed, 1) "Inner dimensions must match \
+                                                            for matmul"
+    M, K = size(b_transposed)
+    K, N = size(a_transposed)
+
+    out = similar(a_transposed, T, M, N) # cᵀ
+
+    matmul_kernel(
+        b_transposed,
+        a_transposed,
+        out,
+        M,
+        N,
+        K,
+        Reactant.rowmajor_stride(b_transposed, 1),
+        Reactant.rowmajor_stride(b_transposed, 2),
+        Reactant.rowmajor_stride(a_transposed, 1),
+        Reactant.rowmajor_stride(a_transposed, 2),
+        Reactant.rowmajor_stride(out, 1),
+        Reactant.rowmajor_stride(out, 2),
+        64,
+        256,
+        32,
+        8;
+        grid=(cld(M, 64) * cld(N, 256),),
+        num_stages=4,
+        num_warps=4,
+    )
+
+    return permutedims(out, (2, 1))
+end
+
+@testset "matmul" begin
+    if RunningOnCUDA
+        @testset for M in (4, 32, 256, 1024),
+            K in (4, 32, 512, 2048),
+            N in (4, 32, 256, 1024)
+
+            a = Reactant.to_rarray(rand(Float32, M, K))
+            b = Reactant.to_rarray(rand(Float32, K, N))
+
+            # XXX: shared_memory????
+            # XXX: seems to work correctly for small matrices
+            @test_broken @jit(matmul_triton(a, b)) ≈ @jit(a * b)
+        end
+    end
+end
Original file line number	Diff line number	Diff line change
`@@ -1949,6 +1949,7 @@ function compile_mlir!(`
`1949`	`1949`	`"enzyme-simplify-math",`
`1950`	`1950`	`legalize_chlo_to_stablehlo...,`
`1951`	`1951`	`opt_passes2,`
	`1952`	`+ "lower-triton",`
`1952`	`1953`	`]`
`1953`	`1954`	`end,`
`1954`	`1955`	`',',`