add apply_adam, _apply_dense for Adam. #271

Oceania2018 · Oceania2018 · commit 93eb56e5a3cf · 2019-06-21T00:00:00.000-05:00
diff --git a/src/TensorFlowNET.Core/Clustering/_InitializeClustersOpFactory.cs b/src/TensorFlowNET.Core/Clustering/_InitializeClustersOpFactory.cs
@@ -47,10 +47,10 @@ public _InitializeClustersOpFactory(Tensor[] inputs,
             _cluster_centers_updated = cluster_centers_updated;
             _cluster_centers_initialized = cluster_centers_initialized;
 
-            _num_selected = array_ops.shape(_cluster_centers)[0];
+            _num_selected = array_ops.shape(_cluster_centers).slice(0);
             _num_remaining = _num_clusters - _num_selected;
 
-            _num_data = math_ops.add_n(_inputs.Select(i => array_ops.shape(i)[0]).ToArray());
+            _num_data = math_ops.add_n(_inputs.Select(i => array_ops.shape(i).slice(0)).ToArray());
         }
 
         private Tensor _initialize()
@@ -68,7 +68,7 @@ private Tensor _initialize()
                   },
                   () =>
                   {
-                      return control_flow_ops.no_op().output[0];
+                      return control_flow_ops.no_op().output.slice(0);
                   });
             });
         }
@@ -90,7 +90,7 @@ private Tensor _add_new_centers()
             // Adds some centers and returns the number of centers remaining.
             var new_centers = _choose_initial_centers();
             if (_distance_metric == KMeans.COSINE_DISTANCE)
-                new_centers = nn_impl.l2_normalize(new_centers[0], axis: 1);
+                new_centers = nn_impl.l2_normalize(new_centers.slice(0), axis: 1);
 
             // If cluster_centers is empty, it doesn't have the right shape for concat.
             var all_centers = control_flow_ops.cond(math_ops.equal(_num_selected, 0),
@@ -99,12 +99,12 @@ private Tensor _add_new_centers()
 
             var a = state_ops.assign(_cluster_centers, all_centers, validate_shape: false);
 
-            return _num_clusters - array_ops.shape(a)[0];
+            return _num_clusters - array_ops.shape(a).slice(0);
         }
 
         private Tensor _choose_initial_centers()
         {
-            return _greedy_batch_sampler()[0];
+            return _greedy_batch_sampler().slice(0);
         }
 
         private Tensor _greedy_batch_sampler()
diff --git a/src/TensorFlowNET.Core/Gradients/array_grad.cs b/src/TensorFlowNET.Core/Gradients/array_grad.cs
@@ -156,7 +156,7 @@ public static Tensor[] _GatherV2Grad(Operation op, Tensor[] grads)
             // For axis 0 gathers, build an appropriately shaped IndexedSlices.
             if((int)axis_static == 0)
             {
-                var params_tail_shape = params_shape[new NumSharp.Slice(start:1)];
+                var params_tail_shape = params_shape.slice(new NumSharp.Slice(start:1));
                 var values_shape = array_ops.concat(new[] { indices_size, params_tail_shape }, 0);
                 var values = array_ops.reshape(grad, values_shape);
                 indices = array_ops.reshape(indices, indices_size);
diff --git a/src/TensorFlowNET.Core/Gradients/gradients_util.cs b/src/TensorFlowNET.Core/Gradients/gradients_util.cs
@@ -105,16 +105,16 @@ public static Tensor[] _GradientsHelper(Tensor[] ys,
                         var has_out_grads = true;
                         if (has_out_grads && !stop_ops.Contains(op))
                         {
+                            // A grad_fn must be defined, either as a function or as None
+                            // for ops that do not have gradients.
+                            var grad_fn = ops.get_gradient_function(op);
+
                             if (is_func_call)
                             {
 
                             }
                             else
                             {
-                                // A grad_fn must be defined, either as a function or as None
-                                // for ops that do not have gradients.
-                                var grad_fn = ops.get_gradient_function(op);
-
                                 foreach (var (i, out_grad) in enumerate(out_grads))
                                 {
                                     if (out_grad == null)
@@ -322,7 +322,7 @@ private static Tensor[] _AggregatedGrads(Dictionary<string, List<List<Tensor>>>
                     else
                     {
                         used = "add_n";
-                        out_grads[i] = new List<Tensor> { _MultiDeviceAddN(out_grad.ToArray(), gradient_uid) };
+                        return_grads[i] = _MultiDeviceAddN(out_grad.ToArray(), gradient_uid);
                     }
                 }
                 else
diff --git a/src/TensorFlowNET.Core/Gradients/nn_grad.cs b/src/TensorFlowNET.Core/Gradients/nn_grad.cs
@@ -200,7 +200,7 @@ public static Tensor[] _TopKGrad(Operation op, Tensor[] grads)
 
             var in_lastdim = array_ops.gather(math_ops.cast(in_shape, TF_DataType.TF_INT64), 
                 array_ops.size(in_shape) - 1);
-            var outerdim = array_ops.shape(ind_2d)[0];
+            var outerdim = array_ops.shape(ind_2d).slice(0);
 
             // Compute linear indices(flattened to 1D).
             var cast1 = math_ops.cast(outerdim, TF_DataType.TF_INT64);
diff --git a/src/TensorFlowNET.Core/Tensors/Tensor.cs b/src/TensorFlowNET.Core/Tensors/Tensor.cs
@@ -224,116 +224,110 @@ public TF_DataType ToTFDataType(Type type)
             }
         }
 
-        public Tensor this[Slice slice]
+        public Tensor slice(Slice slice)
         {
-            get
-            {
-                var slice_spec = new int[] { slice.Start.Value };
-                var begin = new List<int>();
-                var end = new List<int>();
-                var strides = new List<int>();
+            var slice_spec = new int[] { slice.Start.Value };
+            var begin = new List<int>();
+            var end = new List<int>();
+            var strides = new List<int>();
 
-                var index = 0;
-                var (new_axis_mask, shrink_axis_mask) = (0, 0);
-                var (begin_mask, end_mask) = (0, 0);
-                var ellipsis_mask = 0;
+            var index = 0;
+            var (new_axis_mask, shrink_axis_mask) = (0, 0);
+            var (begin_mask, end_mask) = (0, 0);
+            var ellipsis_mask = 0;
 
-                foreach (var s in slice_spec)
+            foreach (var s in slice_spec)
+            {
+                begin.Add(s);
+                if (slice.Stop.HasValue)
                 {
-                    begin.Add(s);
-                    if(slice.Stop.HasValue)
-                    {
-                        end.Add(slice.Stop.Value);
-                    }
-                    else
-                    {
-                        end.Add(0);
-                        end_mask |= (1 << index);
-                    }
-                    strides.Add(slice.Step);
-
-                    index += 1;
+                    end.Add(slice.Stop.Value);
                 }
-
-                return with(ops.name_scope(null, "strided_slice", new { begin, end, strides }), scope =>
+                else
                 {
-                    string name = scope;
-                    if (begin != null)
-                    {
-                        var (packed_begin, packed_end, packed_strides) =
-                            (array_ops.stack(begin.ToArray()),
-                            array_ops.stack(end.ToArray()),
-                            array_ops.stack(strides.ToArray()));
-
-                        return gen_array_ops.strided_slice(
-                            this,
-                            packed_begin,
-                            packed_end,
-                            packed_strides,
-                            begin_mask: begin_mask,
-                            end_mask: end_mask,
-                            shrink_axis_mask: shrink_axis_mask,
-                            new_axis_mask: new_axis_mask,
-                            ellipsis_mask: ellipsis_mask,
-
-                            name: name);
-                    }
-
-                    throw new NotImplementedException("");
-                });
+                    end.Add(0);
+                    end_mask |= (1 << index);
+                }
+                strides.Add(slice.Step);
+
+                index += 1;
             }
+
+            return with(ops.name_scope(null, "strided_slice", new { begin, end, strides }), scope =>
+            {
+                string name = scope;
+                if (begin != null)
+                {
+                    var (packed_begin, packed_end, packed_strides) =
+                        (array_ops.stack(begin.ToArray()),
+                        array_ops.stack(end.ToArray()),
+                        array_ops.stack(strides.ToArray()));
+
+                    return gen_array_ops.strided_slice(
+                        this,
+                        packed_begin,
+                        packed_end,
+                        packed_strides,
+                        begin_mask: begin_mask,
+                        end_mask: end_mask,
+                        shrink_axis_mask: shrink_axis_mask,
+                        new_axis_mask: new_axis_mask,
+                        ellipsis_mask: ellipsis_mask,
+
+                        name: name);
+                }
+
+                throw new NotImplementedException("");
+            });
         }
 
-        public Tensor this[int start]
+        public Tensor slice(int start)
         {
-            get
-            {
-                var slice_spec = new int[] { start };
-                var begin = new List<int>();
-                var end = new List<int>();
-                var strides = new List<int>();
+            var slice_spec = new int[] { start };
+            var begin = new List<int>();
+            var end = new List<int>();
+            var strides = new List<int>();
+
+            var index = 0;
+            var (new_axis_mask, shrink_axis_mask) = (0, 0);
+            var (begin_mask, end_mask) = (0, 0);
+            var ellipsis_mask = 0;
 
-                var index = 0;
-                var (new_axis_mask, shrink_axis_mask) = (0, 0);
-                var (begin_mask, end_mask) = (0, 0);
-                var ellipsis_mask = 0;
+            foreach (var s in slice_spec)
+            {
+                begin.Add(s);
+                end.Add(s + 1);
+                strides.Add(1);
+                shrink_axis_mask |= (1 << index);
+                index += 1;
+            }
 
-                foreach (var s in slice_spec)
+            return with(ops.name_scope(null, "strided_slice", new { begin, end, strides }), scope =>
+            {
+                string name = scope;
+                if (begin != null)
                 {
-                    begin.Add(s);
-                    end.Add(s + 1);
-                    strides.Add(1);
-                    shrink_axis_mask |= (1 << index);
-                    index += 1;
+                    var (packed_begin, packed_end, packed_strides) =
+                        (array_ops.stack(begin.ToArray()),
+                        array_ops.stack(end.ToArray()),
+                        array_ops.stack(strides.ToArray()));
+
+                    return gen_array_ops.strided_slice(
+                        this,
+                        packed_begin,
+                        packed_end,
+                        packed_strides,
+                        begin_mask: begin_mask,
+                        end_mask: end_mask,
+                        shrink_axis_mask: shrink_axis_mask,
+                        new_axis_mask: new_axis_mask,
+                        ellipsis_mask: ellipsis_mask,
+
+                        name: name);
                 }
 
-                return with(ops.name_scope(null, "strided_slice", new { begin, end, strides }), scope =>
-                {
-                    string name = scope;
-                    if (begin != null)
-                    {
-                        var (packed_begin, packed_end, packed_strides) =
-                            (array_ops.stack(begin.ToArray()),
-                            array_ops.stack(end.ToArray()),
-                            array_ops.stack(strides.ToArray()));
-
-                        return gen_array_ops.strided_slice(
-                            this,
-                            packed_begin,
-                            packed_end,
-                            packed_strides,
-                            begin_mask: begin_mask,
-                            end_mask: end_mask,
-                            shrink_axis_mask: shrink_axis_mask,
-                            new_axis_mask: new_axis_mask,
-                            ellipsis_mask: ellipsis_mask,
-
-                            name: name);
-                    }
-
-                    throw new NotImplementedException("");
-                });
-            }
+                throw new NotImplementedException("");
+            });
         }
 
         public override string ToString()
diff --git a/src/TensorFlowNET.Core/Train/AdamOptimizer.cs b/src/TensorFlowNET.Core/Train/AdamOptimizer.cs
@@ -16,7 +16,7 @@ public class AdamOptimizer : Optimizer
         float _beta1;
         float _beta2;
         float _epsilon;
-        Tensor _lr_t, _beta1_t, _beta2_t, _epsilon_t;
+        Tensor _beta1_t, _beta2_t, _epsilon_t;
 
         public AdamOptimizer(float learning_rate, float beta1 = 0.9f, float beta2 = 0.999f, float epsilon = 1e-8f, bool use_locking = false, string name = "Adam")
             : base(learning_rate, use_locking, name)
@@ -34,6 +34,25 @@ public override Operation _apply_sparse(IndexedSlices grad, RefVariable var)
             });
         }
 
+        public override Operation _apply_dense(Tensor grad, RefVariable var)
+        {
+            var m = get_slot(var, "m");
+            var v = get_slot(var, "v");
+            var (beta1_power, beta2_power) = _get_beta_accumulators();
+            return gen_training_ops.apply_adam(
+                var,
+                m,
+                v,
+                math_ops.cast(beta1_power, var.dtype.as_base_dtype()),
+                math_ops.cast(beta2_power, var.dtype.as_base_dtype()),
+                math_ops.cast(_lr_t, var.dtype.as_base_dtype()),
+                math_ops.cast(_beta1_t, var.dtype.as_base_dtype()),
+                math_ops.cast(_beta2_t, var.dtype.as_base_dtype()),
+                math_ops.cast(_epsilon_t, var.dtype.as_base_dtype()),
+                grad,
+                use_locking: _use_locking).op;
+        }
+
         private Operation _apply_sparse_shared(Tensor grad, RefVariable var, Tensor indices, Func<RefVariable, Tensor, Tensor, Tensor> scatter_add)
         {
             var (beta1_power_v, beta2_power_v) = _get_beta_accumulators();
diff --git a/src/TensorFlowNET.Core/Train/Optimizer.cs b/src/TensorFlowNET.Core/Train/Optimizer.cs
@@ -272,7 +272,7 @@ public virtual Operation _apply_sparse(IndexedSlices grad, RefVariable var)
         public virtual (Tensor, Tensor) _deduplicate_indexed_slices(Tensor values, Tensor indices)
         {
             var (unique_indices, new_index_positions) = array_ops.unique(indices);
-            var shape = array_ops.shape(unique_indices)[0];
+            var shape = array_ops.shape(unique_indices).slice(0);
             var summed_values = math_ops.unsorted_segment_sum(values, new_index_positions, shape);
             return (summed_values, unique_indices);
         }
diff --git a/src/TensorFlowNET.Core/Train/gen_training_ops.py.cs b/src/TensorFlowNET.Core/Train/gen_training_ops.py.cs
@@ -8,6 +8,29 @@ public class gen_training_ops
     {
         public static OpDefLibrary _op_def_lib = new OpDefLibrary();
 
+        public static Tensor apply_adam(RefVariable var, RefVariable m, RefVariable v, Tensor beta1_power, Tensor beta2_power, 
+            Tensor lr, Tensor beta1, Tensor beta2, Tensor epsilon, Tensor grad, 
+            bool use_locking = false, bool use_nesterov = false, string name = null)
+        {
+            var _op = _op_def_lib._apply_op_helper("ApplyAdam", name, new
+            {
+                var,
+                m,
+                v,
+                beta1_power,
+                beta2_power,
+                lr,
+                beta1,
+                beta2,
+                epsilon,
+                grad,
+                use_locking,
+                use_nesterov
+            });
+
+            return _op.outputs[0];
+        }
+
         public static Tensor apply_gradient_descent(RefVariable var, Tensor alpha, Tensor delta, bool use_locking = false, string name = null)
         {
             var _op = _op_def_lib._apply_op_helper("ApplyGradientDescent", name, new

Original file line number	Diff line number	Diff line change
`@@ -156,7 +156,7 @@ public static Tensor[] _GatherV2Grad(Operation op, Tensor[] grads)`
`156`	`156`	`// For axis 0 gathers, build an appropriately shaped IndexedSlices.`
`157`	`157`	`if((int)axis_static == 0)`
`158`	`158`	`{`
`159`		`- var params_tail_shape = params_shape[new NumSharp.Slice(start:1)];`
	`159`	`+ var params_tail_shape = params_shape.slice(new NumSharp.Slice(start:1));`
`160`	`160`	`var values_shape = array_ops.concat(new[] { indices_size, params_tail_shape }, 0);`
`161`	`161`	`var values = array_ops.reshape(grad, values_shape);`
`162`	`162`	`indices = array_ops.reshape(indices, indices_size);`
Original file line number	Diff line number	Diff line change
`@@ -105,16 +105,16 @@ public static Tensor[] _GradientsHelper(Tensor[] ys,`
`105`	`105`	`var has_out_grads = true;`
`106`	`106`	`if (has_out_grads && !stop_ops.Contains(op))`
`107`	`107`	`{`
	`108`	`+ // A grad_fn must be defined, either as a function or as None`
	`109`	`+ // for ops that do not have gradients.`
	`110`	`+ var grad_fn = ops.get_gradient_function(op);`
	`111`	`+`
`108`	`112`	`if (is_func_call)`
`109`	`113`	`{`
`110`	`114`
`111`	`115`	`}`
`112`	`116`	`else`
`113`	`117`	`{`
`114`		`- // A grad_fn must be defined, either as a function or as None`
`115`		`- // for ops that do not have gradients.`
`116`		`- var grad_fn = ops.get_gradient_function(op);`
`117`		`-`
`118`	`118`	`foreach (var (i, out_grad) in enumerate(out_grads))`
`119`	`119`	`{`
`120`	`120`	`if (out_grad == null)`
`@@ -322,7 +322,7 @@ private static Tensor[] _AggregatedGrads(Dictionary<string, List<List<Tensor>>>`
`322`	`322`	`else`
`323`	`323`	`{`
`324`	`324`	`used = "add_n";`
`325`		`- out_grads[i] = new List<Tensor> { _MultiDeviceAddN(out_grad.ToArray(), gradient_uid) };`
	`325`	`+ return_grads[i] = _MultiDeviceAddN(out_grad.ToArray(), gradient_uid);`
`326`	`326`	`}`
`327`	`327`	`}`
`328`	`328`	`else`
Original file line number	Diff line number	Diff line change
`@@ -272,7 +272,7 @@ public virtual Operation _apply_sparse(IndexedSlices grad, RefVariable var)`
`272`	`272`	`public virtual (Tensor, Tensor) _deduplicate_indexed_slices(Tensor values, Tensor indices)`
`273`	`273`	`{`
`274`	`274`	`var (unique_indices, new_index_positions) = array_ops.unique(indices);`
`275`		`- var shape = array_ops.shape(unique_indices)[0];`
	`275`	`+ var shape = array_ops.shape(unique_indices).slice(0);`
`276`	`276`	`var summed_values = math_ops.unsorted_segment_sum(values, new_index_positions, shape);`
`277`	`277`	`return (summed_values, unique_indices);`
`278`	`278`	`}`