Add work_dim patching to l0 kernel

ddabek-i · Compute-Runtime-Automation · commit 62f89b174a31 · 2021-07-05T20:09:20.000+02:00
Related-To: NEO-5931

Signed-off-by: Dominik Dabek &lt;dominik.dabek@intel.com&gt;
diff --git a/level_zero/core/source/cmdlist/cmdlist_hw_base.inl b/level_zero/core/source/cmdlist/cmdlist_hw_base.inl
@@ -58,6 +58,9 @@ ze_result_t CommandListCoreFamily<gfxCoreFamily>::appendLaunchKernelWithParams(z
         kernel->setGroupCount(pThreadGroupDimensions->groupCountX,
                               pThreadGroupDimensions->groupCountY,
                               pThreadGroupDimensions->groupCountZ);
+        kernel->patchWorkDim(pThreadGroupDimensions->groupCountX,
+                             pThreadGroupDimensions->groupCountY,
+                             pThreadGroupDimensions->groupCountZ);
     }
 
     if (isIndirect && pThreadGroupDimensions) {
diff --git a/level_zero/core/source/cmdlist/cmdlist_hw_xehp_plus.inl b/level_zero/core/source/cmdlist/cmdlist_hw_xehp_plus.inl
@@ -104,14 +104,16 @@ ze_result_t CommandListCoreFamily<gfxCoreFamily>::appendLaunchKernelWithParams(z
     commandListPreemptionMode = std::min(commandListPreemptionMode, functionPreemptionMode);
 
     kernel->patchGlobalOffset();
-
     if (isIndirect && pThreadGroupDimensions) {
         prepareIndirectParams(pThreadGroupDimensions);
     }
     if (!isIndirect) {
         kernel->setGroupCount(pThreadGroupDimensions->groupCountX,
                               pThreadGroupDimensions->groupCountY,
                               pThreadGroupDimensions->groupCountZ);
+        kernel->patchWorkDim(pThreadGroupDimensions->groupCountX,
+                             pThreadGroupDimensions->groupCountY,
+                             pThreadGroupDimensions->groupCountZ);
     }
     NEO::GraphicsAllocation *eventAlloc = nullptr;
     uint64_t eventAddress = 0;
diff --git a/level_zero/core/source/kernel/kernel.h b/level_zero/core/source/kernel/kernel.h
@@ -116,6 +116,8 @@ struct Kernel : _ze_kernel_handle_t, virtual NEO::DispatchKernelEncoderI {
     virtual ze_result_t setGlobalOffsetExp(uint32_t offsetX, uint32_t offsetY, uint32_t offsetZ) = 0;
     virtual uint32_t patchGlobalOffset() = 0;
 
+    virtual void patchWorkDim(uint32_t groupCountX, uint32_t groupCountY, uint32_t groupCountZ) = 0;
+
     virtual ze_result_t suggestMaxCooperativeGroupCount(uint32_t *totalGroupCount) = 0;
     virtual ze_result_t setCacheConfig(ze_cache_config_flags_t flags) = 0;
 
diff --git a/level_zero/core/source/kernel/kernel_imp.cpp b/level_zero/core/source/kernel/kernel_imp.cpp
@@ -14,6 +14,7 @@
 #include "shared/source/helpers/register_offsets.h"
 #include "shared/source/helpers/string.h"
 #include "shared/source/helpers/surface_format_info.h"
+#include "shared/source/kernel/kernel_arg_descriptor.h"
 #include "shared/source/kernel/kernel_descriptor.h"
 #include "shared/source/memory_manager/memory_manager.h"
 #include "shared/source/memory_manager/memory_operations_handler.h"
@@ -888,6 +889,21 @@ uint32_t KernelImp::patchGlobalOffset() {
     return NEO::patchVecNonPointer(dst, desc.payloadMappings.dispatchTraits.globalWorkOffset, this->globalOffsets);
 }
 
+void KernelImp::patchWorkDim(uint32_t groupCountX, uint32_t groupCountY, uint32_t groupCountZ) {
+    const NEO::KernelDescriptor &kernelDescriptor = kernelImmData->getDescriptor();
+    auto dataOffset = kernelDescriptor.payloadMappings.dispatchTraits.workDim;
+    if (NEO::isValidOffset(dataOffset)) {
+        auto destinationBuffer = ArrayRef<uint8_t>(crossThreadData.get(), crossThreadDataSize);
+        uint32_t workDim = 1;
+        if (groupCountZ * groupSize[2] > 1) {
+            workDim = 3;
+        } else if (groupCountY * groupSize[1] > 1) {
+            workDim = 2;
+        }
+        NEO::patchNonPointer(destinationBuffer, kernelDescriptor.payloadMappings.dispatchTraits.workDim, workDim);
+    }
+}
+
 Kernel *Kernel::create(uint32_t productFamily, Module *module,
                        const ze_kernel_desc_t *desc, ze_result_t *res) {
     UNRECOVERABLE_IF(productFamily >= IGFX_MAX_PRODUCT);
diff --git a/level_zero/core/source/kernel/kernel_imp.h b/level_zero/core/source/kernel/kernel_imp.h
@@ -126,6 +126,8 @@ struct KernelImp : Kernel {
     ze_result_t setGlobalOffsetExp(uint32_t offsetX, uint32_t offsetY, uint32_t offsetZ) override;
     uint32_t patchGlobalOffset() override;
 
+    void patchWorkDim(uint32_t groupCountX, uint32_t groupCountY, uint32_t groupCountZ) override;
+
     ze_result_t setCacheConfig(ze_cache_config_flags_t flags) override;
     bool usesRayTracing() {
         return kernelImmData->getDescriptor().hasRTCalls();
diff --git a/level_zero/core/test/unit_tests/sources/cmdlist/test_cmdlist_append_launch_kernel.cpp b/level_zero/core/test/unit_tests/sources/cmdlist/test_cmdlist_append_launch_kernel.cpp
@@ -591,44 +591,95 @@ HWTEST2_F(CommandListAppendLaunchKernel, givenCommandListWhenAppendLaunchKernelS
     EXPECT_EQ(1u, event->getPacketsInUse());
 }
 
-HWTEST_F(CommandListAppendLaunchKernel, givenIndirectDispatchWhenAppendingThenWorkGroupCountAndGlobalWorkSizeIsSetInCrossThreadData) {
+HWTEST_F(CommandListAppendLaunchKernel, givenIndirectDispatchWhenAppendingThenWorkGroupCountAndGlobalWorkSizeAndWorkDimIsSetInCrossThreadData) {
     using MI_STORE_REGISTER_MEM = typename FamilyType::MI_STORE_REGISTER_MEM;
     using MI_LOAD_REGISTER_REG = typename FamilyType::MI_LOAD_REGISTER_REG;
     using MI_LOAD_REGISTER_IMM = typename FamilyType::MI_LOAD_REGISTER_IMM;
 
     Mock<::L0::Kernel> kernel;
+    kernel.groupSize[0] = 2;
     kernel.descriptor.payloadMappings.dispatchTraits.numWorkGroups[0] = 2;
     kernel.descriptor.payloadMappings.dispatchTraits.globalWorkSize[0] = 2;
+    kernel.descriptor.payloadMappings.dispatchTraits.workDim = 2;
     ze_result_t returnValue;
     std::unique_ptr<L0::CommandList> commandList(L0::CommandList::create(productFamily, device, NEO::EngineGroupType::RenderCompute, 0u, returnValue));
 
     void *alloc = nullptr;
     ze_device_mem_alloc_desc_t deviceDesc = {};
     auto result = context->allocDeviceMem(device->toHandle(), &deviceDesc, 16384u, 4096u, &alloc);
-    ASSERT_EQ(ZE_RESULT_SUCCESS, result);
+    ASSERT_EQ(result, ZE_RESULT_SUCCESS);
 
     result = commandList->appendLaunchKernelIndirect(kernel.toHandle(),
                                                      static_cast<ze_group_count_t *>(alloc),
                                                      nullptr, 0, nullptr);
-    EXPECT_EQ(ZE_RESULT_SUCCESS, result);
+    EXPECT_EQ(result, ZE_RESULT_SUCCESS);
+
+    kernel.groupSize[2] = 2;
+    result = commandList->appendLaunchKernelIndirect(kernel.toHandle(),
+                                                     static_cast<ze_group_count_t *>(alloc),
+                                                     nullptr, 0, nullptr);
+    EXPECT_EQ(result, ZE_RESULT_SUCCESS);
 
     GenCmdList cmdList;
     ASSERT_TRUE(FamilyType::PARSE::parseCommandBuffer(
         cmdList, ptrOffset(commandList->commandContainer.getCommandStream()->getCpuBase(), 0), commandList->commandContainer.getCommandStream()->getUsed()));
 
     auto itor = find<MI_STORE_REGISTER_MEM *>(cmdList.begin(), cmdList.end());
-    EXPECT_NE(cmdList.end(), itor);
-    itor = find<MI_STORE_REGISTER_MEM *>(itor, cmdList.end());
-    EXPECT_NE(cmdList.end(), itor);
-    itor = find<MI_STORE_REGISTER_MEM *>(itor, cmdList.end());
-    EXPECT_NE(cmdList.end(), itor);
+    EXPECT_NE(itor, cmdList.end());
 
-    itor = find<MI_LOAD_REGISTER_REG *>(itor, cmdList.end());
-    EXPECT_NE(cmdList.end(), itor);
-    itor = find<MI_LOAD_REGISTER_IMM *>(itor, cmdList.end());
-    EXPECT_NE(cmdList.end(), itor);
-    itor = find<MI_STORE_REGISTER_MEM *>(itor, cmdList.end());
-    EXPECT_NE(cmdList.end(), itor);
+    itor = find<MI_LOAD_REGISTER_REG *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor = find<MI_STORE_REGISTER_MEM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_REG *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor = find<MI_LOAD_REGISTER_REG *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor++; //MI_MATH_ALU_INST_INLINE doesn't have tagMI_COMMAND_OPCODE, can't find it in cmdList
+    EXPECT_NE(itor, cmdList.end());
+    itor++;
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor++;
+    EXPECT_NE(itor, cmdList.end());
+    itor++;
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor++;
+    EXPECT_NE(itor, cmdList.end());
+    itor++;
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_STORE_REGISTER_MEM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_STORE_REGISTER_MEM *>(++itor, cmdList.end()); //kernel with groupSize[2] = 2
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_REG *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor = find<MI_STORE_REGISTER_MEM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+
+    itor = find<MI_LOAD_REGISTER_IMM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
+    itor = find<MI_STORE_REGISTER_MEM *>(++itor, cmdList.end());
+    EXPECT_NE(itor, cmdList.end());
 
     context->freeMem(alloc);
 }
diff --git a/level_zero/core/test/unit_tests/sources/kernel/test_kernel.cpp b/level_zero/core/test/unit_tests/sources/kernel/test_kernel.cpp
@@ -1824,6 +1824,66 @@ HWTEST_F(KernelGlobalWorkOffsetTests, whenSettingGlobalOffsetThenCrossThreadData
     EXPECT_EQ(*(dst.begin() + desc.payloadMappings.dispatchTraits.globalWorkOffset[2]), globalOffsetz);
 }
 
+using KernelWorkDimTests = Test<ModuleImmutableDataFixture>;
+
+HWTEST_F(KernelWorkDimTests, givenGroupCountsWhenPatchingWorkDimThenCrossThreadDataIsPatched) {
+    struct MockKernelWithMockCrossThreadData : public MockKernel {
+      public:
+        MockKernelWithMockCrossThreadData(MockModule *mockModule) : MockKernel(mockModule) {}
+        void setCrossThreadData(uint32_t _crossThreadDataSize) {
+            crossThreadData.reset(new uint8_t[_crossThreadDataSize]);
+            crossThreadDataSize = _crossThreadDataSize;
+            memset(crossThreadData.get(), 0x00, crossThreadDataSize);
+        }
+    };
+    uint32_t perHwThreadPrivateMemorySizeRequested = 32u;
+
+    std::unique_ptr<MockImmutableData> mockKernelImmData =
+        std::make_unique<MockImmutableData>(perHwThreadPrivateMemorySizeRequested);
+
+    createModuleFromBinary(perHwThreadPrivateMemorySizeRequested, false, mockKernelImmData.get());
+    auto kernel = std::make_unique<MockKernelWithMockCrossThreadData>(module.get());
+    createKernel(kernel.get());
+    kernel->setCrossThreadData(sizeof(uint32_t));
+
+    kernel->patchWorkDim(1, 1, 1);
+
+    mockKernelImmData->mockKernelDescriptor->payloadMappings.dispatchTraits.workDim = 0x0u;
+
+    auto destinationBuffer = ArrayRef<const uint8_t>(kernel->getCrossThreadData(), kernel->getCrossThreadDataSize());
+    auto &kernelDescriptor = mockKernelImmData->getDescriptor();
+    auto workDimInCrossThreadDataPtr = destinationBuffer.begin() + kernelDescriptor.payloadMappings.dispatchTraits.workDim;
+    EXPECT_EQ(*workDimInCrossThreadDataPtr, 0u);
+
+    std::array<std::array<uint32_t, 7>, 8> sizesCountsWorkDim{
+        std::array<uint32_t, 7>{2, 1, 1, 1, 1, 1, 1},
+        std::array<uint32_t, 7>{1, 1, 1, 1, 1, 1, 1},
+        std::array<uint32_t, 7>{1, 2, 1, 2, 1, 1, 2},
+        std::array<uint32_t, 7>{1, 2, 1, 1, 1, 1, 2},
+        std::array<uint32_t, 7>{1, 1, 1, 1, 2, 1, 2},
+        std::array<uint32_t, 7>{1, 1, 1, 2, 2, 2, 3},
+        std::array<uint32_t, 7>{1, 1, 2, 1, 1, 1, 3},
+        std::array<uint32_t, 7>{1, 1, 1, 1, 1, 2, 3}};
+    for (auto parameters : sizesCountsWorkDim) {
+
+        uint32_t groupSizeX = parameters[0];
+        uint32_t groupSizeY = parameters[1];
+        uint32_t groupSizeZ = parameters[2];
+
+        uint32_t groupCountX = parameters[3];
+        uint32_t groupCountY = parameters[4];
+        uint32_t groupCountZ = parameters[5];
+
+        uint32_t expectedWorkDim = parameters[6];
+
+        ze_result_t res = kernel->setGroupSize(groupSizeX, groupSizeY, groupSizeZ);
+        EXPECT_EQ(res, ZE_RESULT_SUCCESS);
+
+        kernel->patchWorkDim(groupCountX, groupCountY, groupCountZ);
+        EXPECT_EQ(*workDimInCrossThreadDataPtr, expectedWorkDim);
+    }
+}
+
 using KernelPrintHandlerTest = Test<ModuleFixture>;
 struct MyPrintfHandler : public PrintfHandler {
     static uint32_t getPrintfSurfaceInitialDataSize() {
diff --git a/shared/source/command_container/command_encoder.h b/shared/source/command_container/command_encoder.h
@@ -126,6 +126,10 @@ struct EncodeMath {
                            AluRegisters firstOperandRegister,
                            AluRegisters secondOperandRegister,
                            AluRegisters finalResultRegister);
+    static void bitwiseOr(CommandContainer &container,
+                          AluRegisters firstOperandRegister,
+                          AluRegisters secondOperandRegister,
+                          AluRegisters finalResultRegister);
 };
 
 template <typename GfxFamily>
@@ -169,6 +173,7 @@ struct EncodeIndirectParams {
     using MI_MATH = typename GfxFamily::MI_MATH;
     using MI_MATH_ALU_INST_INLINE = typename GfxFamily::MI_MATH_ALU_INST_INLINE;
     static void setGroupCountIndirect(CommandContainer &container, const NEO::CrossThreadDataOffset offsets[3], void *crossThreadAddress);
+    static void setWorkDimIndirect(CommandContainer &container, const NEO::CrossThreadDataOffset offset, void *crossThreadAddress, const uint32_t *groupSize);
     static void setGlobalWorkSizeIndirect(CommandContainer &container, const NEO::CrossThreadDataOffset offsets[3], void *crossThreadAddress, const uint32_t *lws);
 
     static size_t getCmdsSizeForIndirectParams();
diff --git a/shared/source/command_container/command_encoder.inl b/shared/source/command_container/command_encoder.inl
@@ -276,6 +276,20 @@ void EncodeMath<Family>::bitwiseAnd(CommandContainer &container,
                                          finalResultRegister);
 }
 
+template <typename Family>
+void EncodeMath<Family>::bitwiseOr(CommandContainer &container,
+                                   AluRegisters firstOperandRegister,
+                                   AluRegisters secondOperandRegister,
+                                   AluRegisters finalResultRegister) {
+    uint32_t *cmd = EncodeMath<Family>::commandReserve(container);
+    EncodeMathMMIO<Family>::encodeAlu(reinterpret_cast<MI_MATH_ALU_INST_INLINE *>(cmd),
+                                      firstOperandRegister,
+                                      secondOperandRegister,
+                                      AluRegisters::OPCODE_OR,
+                                      finalResultRegister,
+                                      AluRegisters::R_ACCU);
+}
+
 template <typename Family>
 inline void EncodeSetMMIO<Family>::encodeIMM(CommandContainer &container, uint32_t offset, uint32_t data, bool remap) {
     LriHelper<Family>::program(container.getCommandStream(),
@@ -502,6 +516,54 @@ void EncodeIndirectParams<Family>::setGroupCountIndirect(CommandContainer &conta
     }
 }
 
+template <typename Family>
+void EncodeIndirectParams<Family>::setWorkDimIndirect(CommandContainer &container, const NEO::CrossThreadDataOffset workDimOffset, void *crossThreadAddress, const uint32_t *groupSize) {
+    if (NEO::isValidOffset(workDimOffset)) {
+        constexpr uint32_t GROUP_SIZE_1_GT_1_REGISTER = CS_GPR_R0;
+        constexpr AluRegisters GROUP_SIZE_1_GT_1_ALU_REGISTER = AluRegisters::R_0;
+
+        constexpr AluRegisters GROUP_DIM_2_GT_1_ALU_REGISTER = AluRegisters::R_1;
+
+        constexpr AluRegisters GROUP_DIM_1_GT_1_ALU_REGISTER = AluRegisters::R_2;
+
+        constexpr uint32_t SUB_RESULT_REGISTER = CS_GPR_R3;
+        constexpr AluRegisters SUB_RESULT_ALU_REGISTER = AluRegisters::R_3;
+
+        constexpr uint32_t RESULT_REGISTER = CS_GPR_R4;
+        constexpr AluRegisters RESULT_ALU_REGISTER = AluRegisters::R_4;
+
+        constexpr uint32_t CONSTANT_ONE_REGISTER = CS_GPR_R5;
+        constexpr AluRegisters CONSTANT_ONE_ALU_REGISTER = AluRegisters::R_5;
+
+        constexpr uint32_t GROUP_DIM_2_REGISTER = CS_GPR_R6;
+        constexpr AluRegisters GROUP_DIM_2_ALU_REGISTER = AluRegisters::R_6;
+
+        constexpr uint32_t GROUP_DIM_1_REGISTER = CS_GPR_R7;
+        constexpr AluRegisters GROUP_DIM_1_ALU_REGISTER = AluRegisters::R_7;
+
+        if (groupSize[2] > 1) {
+            EncodeSetMMIO<Family>::encodeIMM(container, RESULT_REGISTER, 3, true);
+        } else {
+            EncodeSetMMIO<Family>::encodeIMM(container, GROUP_SIZE_1_GT_1_REGISTER, groupSize[1] > 1, true);
+            EncodeSetMMIO<Family>::encodeREG(container, GROUP_DIM_2_REGISTER, GPUGPU_DISPATCHDIM[2]);
+            EncodeSetMMIO<Family>::encodeREG(container, GROUP_DIM_1_REGISTER, GPUGPU_DISPATCHDIM[1]);
+
+            EncodeSetMMIO<Family>::encodeIMM(container, CONSTANT_ONE_REGISTER, 1, true);
+            EncodeMath<Family>::greaterThan(container, GROUP_DIM_2_ALU_REGISTER, CONSTANT_ONE_ALU_REGISTER, GROUP_DIM_2_GT_1_ALU_REGISTER);
+            EncodeMath<Family>::greaterThan(container, GROUP_DIM_1_ALU_REGISTER, CONSTANT_ONE_ALU_REGISTER, GROUP_DIM_1_GT_1_ALU_REGISTER);
+
+            EncodeSetMMIO<Family>::encodeIMM(container, SUB_RESULT_REGISTER, 0, true);
+            EncodeMath<Family>::bitwiseOr(container, GROUP_DIM_2_GT_1_ALU_REGISTER, GROUP_DIM_1_GT_1_ALU_REGISTER, SUB_RESULT_ALU_REGISTER);
+            EncodeMath<Family>::bitwiseOr(container, SUB_RESULT_ALU_REGISTER, GROUP_SIZE_1_GT_1_ALU_REGISTER, SUB_RESULT_ALU_REGISTER);
+
+            EncodeSetMMIO<Family>::encodeIMM(container, RESULT_REGISTER, 1, true);
+            EncodeMath<Family>::addition(container, RESULT_ALU_REGISTER, SUB_RESULT_ALU_REGISTER, RESULT_ALU_REGISTER);
+            EncodeMath<Family>::addition(container, RESULT_ALU_REGISTER, GROUP_DIM_2_GT_1_ALU_REGISTER, RESULT_ALU_REGISTER);
+        }
+        EncodeStoreMMIO<Family>::encode(*container.getCommandStream(), RESULT_REGISTER, ptrOffset(reinterpret_cast<uint64_t>(crossThreadAddress), workDimOffset));
+    }
+}
+
 template <typename Family>
 void EncodeDispatchKernel<Family>::adjustBindingTablePrefetch(INTERFACE_DESCRIPTOR_DATA &interfaceDescriptor, uint32_t samplerCount, uint32_t bindingTableEntryCount) {
     auto enablePrefetch = EncodeSurfaceState<Family>::doBindingTablePrefetch();
diff --git a/shared/source/command_container/command_encoder_bdw_plus.inl b/shared/source/command_container/command_encoder_bdw_plus.inl
@@ -145,6 +145,7 @@ void EncodeDispatchKernel<Family>::encode(CommandContainer &container,
             void *gpuPtr = reinterpret_cast<void *>(heapIndirect->getHeapGpuBase() + heapIndirect->getUsed() - sizeThreadData);
             EncodeIndirectParams<Family>::setGroupCountIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.numWorkGroups, gpuPtr);
             EncodeIndirectParams<Family>::setGlobalWorkSizeIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.globalWorkSize, gpuPtr, dispatchInterface->getGroupSize());
+            EncodeIndirectParams<Family>::setWorkDimIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.workDim, gpuPtr, dispatchInterface->getGroupSize());
         }
 
         ptr = ptrOffset(ptr, sizeCrossThreadData);
diff --git a/shared/source/command_container/command_encoder_xehp_plus.inl b/shared/source/command_container/command_encoder_xehp_plus.inl
@@ -177,6 +177,7 @@ void EncodeDispatchKernel<Family>::encode(CommandContainer &container,
             void *gpuPtr = reinterpret_cast<void *>(heap->getHeapGpuBase() + heap->getUsed() - sizeThreadData);
             EncodeIndirectParams<Family>::setGroupCountIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.numWorkGroups, gpuPtr);
             EncodeIndirectParams<Family>::setGlobalWorkSizeIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.globalWorkSize, gpuPtr, dispatchInterface->getGroupSize());
+            EncodeIndirectParams<Family>::setWorkDimIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.workDim, gpuPtr, dispatchInterface->getGroupSize());
         }
 
         auto perThreadDataPtr = dispatchInterface->getPerThreadData();

Original file line number	Diff line number	Diff line change
`@@ -58,6 +58,9 @@ ze_result_t CommandListCoreFamily<gfxCoreFamily>::appendLaunchKernelWithParams(z`
`58`	`58`	`kernel->setGroupCount(pThreadGroupDimensions->groupCountX,`
`59`	`59`	`pThreadGroupDimensions->groupCountY,`
`60`	`60`	`pThreadGroupDimensions->groupCountZ);`
	`61`	`+ kernel->patchWorkDim(pThreadGroupDimensions->groupCountX,`
	`62`	`+ pThreadGroupDimensions->groupCountY,`
	`63`	`+ pThreadGroupDimensions->groupCountZ);`
`61`	`64`	`}`
`62`	`65`
`63`	`66`	`if (isIndirect && pThreadGroupDimensions) {`
Original file line number	Diff line number	Diff line change
`@@ -145,6 +145,7 @@ void EncodeDispatchKernel<Family>::encode(CommandContainer &container,`
`145`	`145`	`void gpuPtr = reinterpret_cast<void >(heapIndirect->getHeapGpuBase() + heapIndirect->getUsed() - sizeThreadData);`
`146`	`146`	`EncodeIndirectParams<Family>::setGroupCountIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.numWorkGroups, gpuPtr);`
`147`	`147`	`EncodeIndirectParams<Family>::setGlobalWorkSizeIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.globalWorkSize, gpuPtr, dispatchInterface->getGroupSize());`
	`148`	`+ EncodeIndirectParams<Family>::setWorkDimIndirect(container, kernelDescriptor.payloadMappings.dispatchTraits.workDim, gpuPtr, dispatchInterface->getGroupSize());`
`148`	`149`	`}`
`149`	`150`
`150`	`151`	`ptr = ptrOffset(ptr, sizeCrossThreadData);`