[webgpu] Add buffer manager for buffer reuse. (tensorflow#1822)

annxingyuan · web-flow · commit 853e37149dc2 · 2019-07-11T09:57:28.000-04:00
FEATURE
diff --git a/tfjs-webgpu/src/backend_webgpu.ts b/tfjs-webgpu/src/backend_webgpu.ts
@@ -22,6 +22,7 @@ import './flags_webgpu';
 import {backend_util, DataMover, DataType, ENV, KernelBackend, Rank, ShapeMap, Tensor, Tensor2D, Tensor3D, Tensor4D, util} from '@tensorflow/tfjs-core';
 import * as shaderc from '@webgpu/shaderc';
 
+import {BufferManager} from './buffer_manager';
 import {ArgMinMaxProgram} from './kernels/argminmax_webgpu';
 import * as binary_op from './kernels/binary_op_webgpu';
 import {BinaryOpProgram} from './kernels/binary_op_webgpu';
@@ -50,33 +51,38 @@ export interface WebGPUMemoryInfo extends MemoryInfo {
   unreliable: boolean;
 }
 
-type TensorInfo = {
+type BufferInfo = {
   byteSize: number,
-  values: Float32Array|Int32Array|Uint8Array,
-  id: number,
-  dtype: DataType,
+  usage: GPUBufferUsage,
   buffer: GPUBuffer
 };
 
-type BufferInfo = {
-  byteSize: number,
-  buffer: GPUBuffer
+type TensorInfo = {
+  values: Float32Array|Int32Array|Uint8Array,
+  id: number,
+  dtype: DataType,
+  bufferInfo: BufferInfo
 };
 
 interface DataId {}
 
+const DEFAULT_GPUBUFFER_USAGE = GPUBufferUsage.STORAGE |
+    GPUBufferUsage.TRANSFER_SRC | GPUBufferUsage.TRANSFER_DST;
+
 export class WebGPUBackend extends KernelBackend {
   device: GPUDevice;
   queue: GPUQueue;
   shaderc: shaderc.Shaderc;
   compiler: shaderc.Compiler;
   compileOpts: shaderc.CompileOptions;
   commandQueue: GPUCommandEncoder[];
-  disposalQueue: BufferInfo[];
 
+  private commandQueueOwnedIds = new WeakSet<DataId>();
   private binaryCache: {[key: string]: WebGPUBinary};
   private fromPixels2DContext: CanvasRenderingContext2D;
-  private numBytesInGPU = 0;
+  private bufferManager: BufferManager;
+  private tensorMap = new WeakMap<DataId, TensorInfo>();
+  private disposalQueue: BufferInfo[] = [];
 
   private disposed = false;
 
@@ -86,12 +92,13 @@ export class WebGPUBackend extends KernelBackend {
     this.device = device;
     this.queue = device.getQueue();
     this.commandQueue = [];
-    this.disposalQueue = [];
     this.shaderc = shaderc;
     this.compiler = new shaderc.Compiler();
     const opts = new shaderc.CompileOptions();
     opts.SetOptimizationLevel(shaderc.optimization_level.performance);
     this.compileOpts = opts;
+
+    this.bufferManager = new BufferManager(this.device);
   }
 
   floatPrecision(): 32 {
@@ -102,43 +109,62 @@ export class WebGPUBackend extends KernelBackend {
     // TODO: tfjs team to implement this. Call GPUBuffer.destroy()
   }
 
-  private tensorMap = new WeakMap<DataId, TensorInfo>();
+  flushDisposalQueue() {
+    this.disposalQueue.forEach(d => {
+      this.releaseBuffer(d.buffer, d.byteSize, d.usage);
+    });
+
+    this.disposalQueue = [];
+  }
 
   disposeData(dataId: DataId): void {
     if (!this.tensorMap.has(dataId)) {
       throw new Error(`Tensor ${dataId} was not registered!`);
     }
 
     const info = this.tensorMap.get(dataId);
-    this.disposeBuffer(info.byteSize, info.buffer);
+    if (this.commandQueueOwnedIds.has(dataId)) {
+      this.disposalQueue.push(info.bufferInfo);
+    } else {
+      this.releaseBuffer(
+          info.bufferInfo.buffer, info.bufferInfo.byteSize,
+          info.bufferInfo.usage);
+    }
 
     this.tensorMap.delete(dataId);
   }
 
   memory(): WebGPUMemoryInfo {
-    return {numBytesInGPU: this.numBytesInGPU, unreliable: false} as
-        WebGPUMemoryInfo;
+    return {
+      numBytesInGPU: this.bufferManager.numBytesUsed,
+      unreliable: false
+    } as WebGPUMemoryInfo;
+  }
+
+  getBufferManager(): BufferManager {
+    return this.bufferManager;
   }
 
-  private createBuffer(
-      byteSize: number,
-      usage: GPUBufferUsage = GPUBufferUsage.STORAGE |
-          GPUBufferUsage.TRANSFER_SRC | GPUBufferUsage.TRANSFER_DST) {
-    this.numBytesInGPU += byteSize;
-    return this.device.createBuffer({size: byteSize, usage});
+  private acquireBuffer(
+      byteSize: number, usage: GPUBufferUsage = DEFAULT_GPUBUFFER_USAGE) {
+    return this.bufferManager.acquireBuffer(byteSize, usage);
   }
 
-  private disposeBuffer(byteSize: number, buffer: GPUBuffer) {
-    this.disposalQueue.push({byteSize, buffer});
-    // TODO: recycle deleted buffers
+  private releaseBuffer(
+      buffer: GPUBuffer, byteSize: number, usage: GPUBufferUsage) {
+    this.bufferManager.releaseBuffer(buffer, byteSize, usage);
   }
 
   register(dataId: object, shape: number[], dtype: DataType): void {
     if (!this.tensorMap.has(dataId)) {
       const byteSize = util.sizeFromShape(shape) * util.bytesPerElement(dtype);
-      const buffer = this.createBuffer(byteSize);
-      this.tensorMap.set(
-          dataId, {byteSize, values: null, id: -1, buffer, dtype});
+      const buffer = this.acquireBuffer(byteSize);
+      this.tensorMap.set(dataId, {
+        values: null,
+        id: -1,
+        dtype,
+        bufferInfo: {byteSize, usage: DEFAULT_GPUBUFFER_USAGE, buffer}
+      });
     }
   }
 
@@ -149,49 +175,45 @@ export class WebGPUBackend extends KernelBackend {
 
     const info = this.tensorMap.get(dataId);
     info.values = values;
-    info.buffer.setSubData(0, values);
+    info.bufferInfo.buffer.setSubData(0, values);
     this.tensorMap.set(dataId, info);
   }
 
   private submitQueue() {
     this.queue.submit(this.commandQueue.map(enc => enc.finish()));
     this.commandQueue = [];
 
-    this.flushDisposalQueue();
-  }
-
-  private flushDisposalQueue() {
-    this.disposalQueue.forEach(d => {
-      d.buffer.destroy();
-      this.numBytesInGPU -= d.byteSize;
-    });
+    this.commandQueueOwnedIds = new WeakSet<DataId>();
 
-    this.disposalQueue = [];
+    this.flushDisposalQueue();
   }
 
   private async getBufferData(info: TensorInfo): Promise<ArrayBuffer> {
-    const staging = this.createBuffer(
-        info.byteSize, GPUBufferUsage.TRANSFER_DST | GPUBufferUsage.MAP_READ);
-    {
-      const encoder = this.device.createCommandEncoder({});
-      encoder.copyBufferToBuffer(info.buffer, 0, staging, 0, info.byteSize);
-      this.commandQueue.push(encoder);
-      this.submitQueue();
-    }
+    const staging = this.acquireBuffer(
+        info.bufferInfo.byteSize,
+        GPUBufferUsage.TRANSFER_DST | GPUBufferUsage.MAP_READ);
+    const encoder = this.device.createCommandEncoder({});
+    encoder.copyBufferToBuffer(
+        info.bufferInfo.buffer, 0, staging, 0, info.bufferInfo.byteSize);
+    this.commandQueue.push(encoder);
+    this.submitQueue();
+
     const mapped: ArrayBuffer = await staging.mapReadAsync();
+    const values = mapped.slice(0);
 
-    return mapped.slice(0);
+    staging.unmap();
+    this.releaseBuffer(
+        staging, info.bufferInfo.byteSize,
+        GPUBufferUsage.TRANSFER_DST | GPUBufferUsage.MAP_READ);
+
+    return values;
   }
 
   private convertAndCacheOnCPU(dataId: DataId, data: backend_util.TypedArray):
       backend_util.TypedArray {
-    const texData = this.tensorMap.get(dataId);
-
-    // TODO: implement release GPU data.
-    // TODO: add backend_webgl float32ToTypedArray to util and use that here.
-
-    texData.values = data;
-    return texData.values as backend_util.TypedArray;
+    const info = this.tensorMap.get(dataId);
+    info.values = data;
+    return info.values as backend_util.TypedArray;
   }
 
   // TODO: Remove once this is fixed:
@@ -246,7 +268,7 @@ export class WebGPUBackend extends KernelBackend {
       resource: {
         offset: 0,
         size: tensor.size * util.bytesPerElement(tensor.dtype),
-        buffer: tensorData.buffer
+        buffer: tensorData.bufferInfo.buffer
       }
     };
   }
@@ -337,16 +359,23 @@ export class WebGPUBackend extends KernelBackend {
     pass.endPass();
     this.commandQueue.push(encoder);
 
+    inputs.forEach(input => {
+      this.commandQueueOwnedIds.add(input.dataId);
+    });
+    this.commandQueueOwnedIds.add(output.dataId);
+
     if (ENV.get('WEBGPU_IMMEDIATE_EXECUTION_ENABLED')) {
       this.submitQueue();
     }
-    this.disposeBuffer(uniformData.byteLength, uniforms.resource.buffer);
+    this.releaseBuffer(
+        uniforms.resource.buffer, uniformData.byteLength,
+        GPUBufferUsage.TRANSFER_DST | GPUBufferUsage.UNIFORM);
     return output as {} as K;
   }
 
   private makeUniforms(data: Uint32Array|
                        Int32Array): webgpu_program.BindingInfo {
-    const dimensionsBuffer = this.createBuffer(
+    const dimensionsBuffer = this.acquireBuffer(
         data.byteLength, GPUBufferUsage.TRANSFER_DST | GPUBufferUsage.UNIFORM);
     dimensionsBuffer.setSubData(0, data);
 
@@ -611,6 +640,7 @@ export class WebGPUBackend extends KernelBackend {
     if (this.disposed) {
       return;
     }
+    this.bufferManager.dispose();
     this.disposed = true;
   }
 }
diff --git a/tfjs-webgpu/src/backend_webgpu_test.ts b/tfjs-webgpu/src/backend_webgpu_test.ts
@@ -16,7 +16,8 @@
  */
 
 import * as tf from '@tensorflow/tfjs-core';
-import {WebGPUMemoryInfo} from './backend_webgpu';
+
+import {WebGPUBackend, WebGPUMemoryInfo} from './backend_webgpu';
 import {describeWebGPU} from './test_util';
 
 describeWebGPU('backend webgpu', () => {
@@ -78,6 +79,88 @@ describeWebGPU('backend webgpu', () => {
     tf.ENV.set('WEBGPU_IMMEDIATE_EXECUTION_ENABLED', savedFlag);
   });
 
+  it('should recycle buffers in immediate mode', () => {
+    const savedFlag = tf.ENV.get('WEBGPU_IMMEDIATE_EXECUTION_ENABLED');
+    tf.ENV.set('WEBGPU_IMMEDIATE_EXECUTION_ENABLED', true);
+    const backend = tf.backend() as WebGPUBackend;
+    const bufferManager = backend.getBufferManager();
+    bufferManager.reset();
+
+    const a = tf.tensor2d([2, 4, 6, 8], [2, 2]);
+    const b = tf.tensor2d([0.5, 0.5, 0.5, 0.5], [2, 2]);
+
+    const c = tf.mul(a, b);
+    const freeBuffersAfterFirstMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterFirstMul = bufferManager.getNumUsedBuffers();
+
+    const f = tf.tensor2d([1, 2, 3, 4, 5, 6], [2, 3]);
+    tf.matMul(c, f);
+    const freeBuffersAfterFirstMatMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterFirstMatMul = bufferManager.getNumUsedBuffers();
+    expect(freeBuffersAfterFirstMatMul - freeBuffersAfterFirstMul)
+        .toEqual(1);  // from released uniform
+    expect(usedBuffersAfterFirstMatMul - usedBuffersAfterFirstMul).toEqual(2);
+
+    const a2 = tf.tensor2d([2, 4, 6, 8], [2, 2]);
+    const b2 = tf.tensor2d([0.5, 0.5, 0.5, 0.5], [2, 2]);
+
+    const c2 = tf.mul(a2, b2);
+    const freeBuffersAfterSecondMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterSecondMul = bufferManager.getNumUsedBuffers();
+    expect(freeBuffersAfterSecondMul - freeBuffersAfterFirstMatMul)
+        .toEqual(0);  // released a uniform buffer and reused a buffer
+    expect(usedBuffersAfterSecondMul - usedBuffersAfterFirstMatMul).toEqual(3);
+
+    const f2 = tf.tensor2d([1, 2, 3, 4, 5, 6], [2, 3]);
+    tf.matMul(c2, f2);
+    const freeBuffersAfterSecondMatMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterSecondMatMul = bufferManager.getNumUsedBuffers();
+    expect(freeBuffersAfterSecondMatMul - freeBuffersAfterSecondMul).toEqual(0);
+    expect(usedBuffersAfterSecondMatMul - usedBuffersAfterSecondMul).toEqual(2);
+    tf.ENV.set('WEBGPU_IMMEDIATE_EXECUTION_ENABLED', savedFlag);
+  });
+
+  it('should recycle buffers in delayed mode', () => {
+    const savedFlag = tf.ENV.get('WEBGPU_IMMEDIATE_EXECUTION_ENABLED');
+    tf.ENV.set('WEBGPU_IMMEDIATE_EXECUTION_ENABLED', false);
+    const backend = tf.backend() as WebGPUBackend;
+    const bufferManager = backend.getBufferManager();
+    bufferManager.reset();
+
+    const a = tf.tensor2d([2, 4, 6, 8], [2, 2]);
+    const b = tf.tensor2d([0.5, 0.5, 0.5, 0.5], [2, 2]);
+
+    const c = tf.mul(a, b);
+    const freeBuffersAfterFirstMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterFirstMul = bufferManager.getNumUsedBuffers();
+
+    const f = tf.tensor2d([1, 2, 3, 4, 5, 6], [2, 3]);
+    tf.matMul(c, f);
+    const freeBuffersAfterFirstMatMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterFirstMatMul = bufferManager.getNumUsedBuffers();
+    expect(freeBuffersAfterFirstMatMul - freeBuffersAfterFirstMul)
+        .toEqual(1);  // from released uniform
+    expect(usedBuffersAfterFirstMatMul - usedBuffersAfterFirstMul).toEqual(2);
+
+    const a2 = tf.tensor2d([2, 4, 6, 8], [2, 2]);
+    const b2 = tf.tensor2d([0.5, 0.5, 0.5, 0.5], [2, 2]);
+
+    const c2 = tf.mul(a2, b2);
+    const freeBuffersAfterSecondMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterSecondMul = bufferManager.getNumUsedBuffers();
+    expect(freeBuffersAfterSecondMul - freeBuffersAfterFirstMatMul)
+        .toEqual(0);  // released a uniform buffer and reused a buffer
+    expect(usedBuffersAfterSecondMul - usedBuffersAfterFirstMatMul).toEqual(3);
+
+    const f2 = tf.tensor2d([1, 2, 3, 4, 5, 6], [2, 3]);
+    tf.matMul(c2, f2);
+    const freeBuffersAfterSecondMatMul = bufferManager.getNumFreeBuffers();
+    const usedBuffersAfterSecondMatMul = bufferManager.getNumUsedBuffers();
+    expect(freeBuffersAfterSecondMatMul - freeBuffersAfterSecondMul).toEqual(0);
+    expect(usedBuffersAfterSecondMatMul - usedBuffersAfterSecondMul).toEqual(2);
+    tf.ENV.set('WEBGPU_IMMEDIATE_EXECUTION_ENABLED', savedFlag);
+  });
+
   it('readSync should throw if tensors are on the GPU', async () => {
     const a = tf.tensor2d([1, 2, 3, 4], [2, 2]);
     const b = tf.tensor2d([1, 2, 3, 4, 5, 6], [2, 3]);
diff --git a/tfjs-webgpu/src/buffer_manager.ts b/tfjs-webgpu/src/buffer_manager.ts