added dataset class

Tomasz Latkowski · Tomasz Latkowski · commit b19e580c3259 · 2018-02-26T20:44:38.000+01:00
diff --git a/config/experiments/simple_experiment.ini b/config/experiments/simple_experiment.ini
@@ -0,0 +1,6 @@
+[SELECTION]
+num_features = 100
+method = 'fisher'
+
+[CLASSIFIER]
+hidden_sizes = 20, 10
diff --git a/experiments/dataset.py b/experiments/dataset.py
@@ -1,4 +1,26 @@
+import numpy as np
+from sklearn.model_selection import StratifiedKFold
+
+from utils.data_reader import read
+
+
 class Dataset:
 
-    def __init__(self, data, num_classes):
-        pass
+    def __init__(self, data_fn):
+        self.data = read(data_fn)
+        # FIXME
+        self.labels = np.concatenate([np.ones(82, dtype=np.float64), np.zeros(64, dtype=np.float64)])
+        self.labels = np.reshape(self.labels, (-1, 1))
+
+        self.skf = StratifiedKFold(n_splits=10)
+
+    def cross_validation(self):
+        return enumerate(self.skf.split(self.data, self.labels.reshape(146)))
+
+    def get_data(self, indices):
+        return self.data[indices, :]
+
+    def get_labels(self, indices):
+        selected_labels = self.labels[indices]
+        num_instances = [int(sum(selected_labels == 0)), int(sum(selected_labels == 1))]
+        return num_instances, selected_labels
diff --git a/experiments/experiment.py b/experiments/experiment.py
@@ -4,15 +4,14 @@
 from methods.selection_wrapper import SelectionWrapper
 
 
-class ExperimentModel:
+class Experiment:
 
     def __init__(self, selection_method, num_features, num_instances, classifier, dataset):
-
         with tf.name_scope('selection'):
             self.selection_wrapper = SelectionWrapper(dataset,
-                                                     num_instances=num_instances,
-                                                     selection_method=selection_method,
-                                                     num_features=num_features)
+                                                      num_instances=num_instances,
+                                                      selection_method=selection_method,
+                                                      num_features=num_features)
 
         with tf.name_scope('classifier'):
             self.clf = NeuralNetworkClassifier(num_features, 20)
diff --git a/requirements.txt b/requirements.txt
@@ -1,3 +1,4 @@
-pandas==0.19.0
+pandas==0.22.0
 tensorflow==1.4.0
 numpy==1.13.3
+tqdm==4.19.5
diff --git a/run.py b/run.py
@@ -1,38 +1,28 @@
-import numpy as np
 import tensorflow as tf
-from utils.log_saver import LogSaver
-from experiments.experiment import ExperimentModel
-from methods.selection import fisher
 from tqdm import tqdm
-from sklearn.model_selection import StratifiedKFold
-from utils.data_reader import read
 
+from experiments.dataset import Dataset
+from experiments.experiment import Experiment
+from methods.selection import fisher
+from utils.log_saver import LogSaver
 
-data_fn = 'data/autism.tsv'
-data = read(data_fn)
+dataset = Dataset('data/autism.tsv')
 
 num_features = 100
 num_epochs = 1000
 eval_every = 10
 
-labels = np.concatenate([np.ones(82, dtype=np.float64), np.zeros(64, dtype=np.float64)])
-labels = np.reshape(labels, (-1, 1))
-
-
-skf = StratifiedKFold(n_splits=10)
-
-for fold_id, (train_idxs, test_idxs) in enumerate(skf.split(data, labels.reshape(146))):
+for fold_id, (train_idxs, test_idxs) in dataset.cross_validation():
 
-    data_train_fold = data[train_idxs, :]
-    labels_train_fold = labels[train_idxs]
-    num_instances = [int(sum(labels_train_fold == 0)), int(sum(labels_train_fold == 1))]
+    data_train_fold = dataset.get_data(train_idxs)
+    num_instances, labels_train_fold = dataset.get_labels(train_idxs)
 
-    data_test_fold = data[test_idxs, :]
-    labels_test_fold = labels[test_idxs]
+    data_test_fold = dataset.get_data(test_idxs)
+    _, labels_test_fold = dataset.get_labels(test_idxs)
 
     with tf.Graph().as_default() as graph:
 
-        model = ExperimentModel(fisher, num_features, num_instances, None, data_train_fold)
+        experiment = Experiment(fisher, num_features, num_instances, None, data_train_fold)
 
         with tf.Session() as session:
 
@@ -41,21 +31,22 @@
 
             log_saver = LogSaver('logs', 'fisher_fold{}'.format(fold_id), session.graph)
 
-            train_selected_data = session.run(model.selection_wrapper.selected_data)
-            test_selected_data = session.run(model.selection_wrapper.select(data_test_fold))
+            train_selected_data = session.run(experiment.selection_wrapper.selected_data)
+            test_selected_data = session.run(experiment.selection_wrapper.select(data_test_fold))
 
             tqdm_iter = tqdm(range(num_epochs), desc='Epochs')
 
             for epoch in tqdm_iter:
-                feed_dict = {model.clf.x: train_selected_data, model.clf.y: labels_train_fold}
-                loss, _, summary = session.run([model.clf.loss, model.clf.opt, model.clf.summary_op], feed_dict=feed_dict)
+                feed_dict = {experiment.clf.x: train_selected_data, experiment.clf.y: labels_train_fold}
+                loss, _ = session.run([experiment.clf.loss, experiment.clf.opt],
+                                      feed_dict=feed_dict)
 
                 if epoch % eval_every == 0:
-                    summary = session.run(model.clf.summary_op, feed_dict=feed_dict)
+                    summary = session.run(experiment.clf.summary_op, feed_dict=feed_dict)
                     log_saver.log_train(summary, epoch)
 
-                    feed_dict = {model.clf.x: test_selected_data, model.clf.y: labels_test_fold}
-                    summary = session.run(model.clf.summary_op, feed_dict=feed_dict)
+                    feed_dict = {experiment.clf.x: test_selected_data, experiment.clf.y: labels_test_fold}
+                    summary = session.run(experiment.clf.summary_op, feed_dict=feed_dict)
                     log_saver.log_test(summary, epoch)
 
-                tqdm_iter.set_postfix(loss='{:.2f}'.format(float(loss)), epoch=epoch)
+                tqdm_iter.set_postfix(loss='{:.2f}'.format(float(loss)), epoch=epoch)