From c402635ae25054daa48e9c828e63b375a4beb3a0 Mon Sep 17 00:00:00 2001
From: kgao <kevin.leo.gao@gmail.com>
Date: Tue, 11 Apr 2023 15:12:48 -0400
Subject: [PATCH 01/12] Init

Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/score/drscorer.py      | 276 ++++++++++++++++++++++++++++++++++
 econml/tests/test_drscorer.py |  88 +++++++++++
 2 files changed, 364 insertions(+)
 create mode 100644 econml/score/drscorer.py
 create mode 100644 econml/tests/test_drscorer.py

diff --git a/econml/score/drscorer.py b/econml/score/drscorer.py
new file mode 100644
index 000000000..a3c1a9876
--- /dev/null
+++ b/econml/score/drscorer.py
@@ -0,0 +1,276 @@
+# Copyright (c) PyWhy contributors. All rights reserved.
+# Licensed under the MIT License.
+
+from econml.sklearn_extensions.linear_model import StatsModelsLinearRegression
+from ..dr import DRLearner
+from sklearn.base import clone
+import numpy as np
+from scipy.special import softmax
+from .ensemble_cate import EnsembleCateEstimator
+
+
+class DRScorer:
+    """ Scorer based on the DRLearner loss. Fits regression model g (using T-Learner) and propensity model p at fit time
+    and calculates the regression and propensity of the evaluation data::
+
+        g (model_regression) = E[Y | X, W, T]
+        
+        p (model_propensity) = Pr[T | X, W]
+
+        Ydr(g,p) = g  + (Y - g ) / p * T
+
+    Then for any given cate model calculates the loss::
+
+        loss(cate) = E_n[(Ydr(g, p) - cate(X))^2]
+
+    Also calculates a baseline loss based on a constant treatment effect model, i.e.::
+
+        base_loss = min_{theta} E_n[(Ydr(g, p) - theta)^2]
+
+    Returns an analogue of the R-square score for regression::
+
+        score = 1 - loss(cate) / base_loss
+
+    This corresponds to the extra variance of the outcome explained by introducing heterogeneity
+    in the effect as captured by the cate model, as opposed to always predicting a constant effect.
+    A negative score, means that the cate model performs even worse than a constant effect model
+    and hints at overfitting during training of the cate model.
+
+    This method was also advocated in recent work of [Schuleretal2018]_ when compared among several alternatives
+    for causal model selection and introduced in the work of [NieWager2017]_.
+
+    Parameters
+    ----------
+    model_propensity : scikit-learn classifier or 'auto', default 'auto'
+        Estimator for Pr[T=t | X, W]. Trained by regressing treatments on (features, controls) concatenated.
+        Must implement `fit` and `predict_proba` methods. The `fit` method must be able to accept X and T,
+        where T is a shape (n, ) array.
+        If 'auto', :class:`~sklearn.linear_model.LogisticRegressionCV` will be chosen.
+
+    model_regression : scikit-learn regressor or 'auto', default 'auto'
+        Estimator for E[Y | X, W, T]. Trained by regressing Y on (features, controls, one-hot-encoded treatments)
+        concatenated. The one-hot-encoding excludes the baseline treatment. Must implement `fit` and
+        `predict` methods. If different models per treatment arm are desired, see the
+        :class:`.MultiModelWrapper` helper class.
+        If 'auto' :class:`.WeightedLassoCV`/:class:`.WeightedMultiTaskLassoCV` will be chosen.
+
+    model_final :
+        estimator for the final cate model. Trained on regressing the doubly robust potential outcomes
+        on (features X).
+
+        - If X is None, then the fit method of model_final should be able to handle X=None.
+        - If featurizer is not None and X is not None, then it is trained on the outcome of
+          featurizer.fit_transform(X).
+        - If multitask_model_final is True, then this model must support multitasking
+          and it is trained by regressing all doubly robust target outcomes on (featurized) features simultanteously.
+        - The output of the predict(X) of the trained model will contain the CATEs for each treatment compared to
+          baseline treatment (lexicographically smallest). If multitask_model_final is False, it is assumed to be a
+          mono-task model and a separate clone of the model is trained for each outcome. Then predict(X) of the t-th
+          clone will be the CATE of the t-th lexicographically ordered treatment compared to the baseline.
+
+    multitask_model_final : bool, default False
+        Whether the model_final should be treated as a multi-task model. See description of model_final.
+
+    featurizer : :term:`transformer`, optional
+        Must support fit_transform and transform. Used to create composite features in the final CATE regression.
+        It is ignored if X is None. The final CATE will be trained on the outcome of featurizer.fit_transform(X).
+        If featurizer=None, then CATE is trained on X.
+
+    min_propensity : float, default ``1e-6``
+        The minimum propensity at which to clip propensity estimates to avoid dividing by zero.
+
+    categories: 'auto' or list, default 'auto'
+        The categories to use when encoding discrete treatments (or 'auto' to use the unique sorted values).
+        The first category will be treated as the control treatment.
+
+    cv: int, cross-validation generator or an iterable, default 2
+        Determines the cross-validation splitting strategy.
+        Possible inputs for cv are:
+
+        - None, to use the default 3-fold cross-validation,
+        - integer, to specify the number of folds.
+        - :term:`CV splitter`
+        - An iterable yielding (train, test) splits as arrays of indices.
+
+        For integer/None inputs, if the treatment is discrete
+        :class:`~sklearn.model_selection.StratifiedKFold` is used, else,
+        :class:`~sklearn.model_selection.KFold` is used
+        (with a random shuffle in either case).
+
+        Unless an iterable is used, we call `split(concat[W, X], T)` to generate the splits. If all
+        W, X are None, then we call `split(ones((T.shape[0], 1)), T)`.
+
+    mc_iters: int, optional
+        The number of times to rerun the first stage models to reduce the variance of the nuisances.
+
+    mc_agg: {'mean', 'median'}, default 'mean'
+        How to aggregate the nuisance value for each sample across the `mc_iters` monte carlo iterations of
+        cross-fitting.
+
+    random_state: int, :class:`~numpy.random.mtrand.RandomState` instance or None
+        If int, random_state is the seed used by the random number generator;
+        If :class:`~numpy.random.mtrand.RandomState` instance, random_state is the random number generator;
+        If None, the random number generator is the :class:`~numpy.random.mtrand.RandomState` instance used
+        by :mod:`np.random<numpy.random>`.
+
+    References
+    ----------
+    .. [NieWager2017] X. Nie and S. Wager.
+        Quasi-Oracle Estimation of Heterogeneous Treatment Effects.
+        arXiv preprint arXiv:1712.04912, 2017.
+        `<https://arxiv.org/pdf/1712.04912.pdf>`_
+
+    .. [Schuleretal2018] Alejandro Schuler, Michael Baiocchi, Robert Tibshirani, Nigam Shah.
+        "A comparison of methods for model selection when estimating individual treatment effects."
+        Arxiv, 2018
+        `<https://arxiv.org/pdf/1804.05146.pdf>`_
+
+    """
+
+    def __init__(self, *,
+                 model_propensity='auto',
+                 model_regression='auto',
+                 model_final=StatsModelsLinearRegression(),
+                 multitask_model_final=False,
+                 featurizer=None,
+                 min_propensity=1e-6,
+                 categories='auto',
+                 cv=2,
+                 mc_iters=None,
+                 mc_agg='mean',
+                 random_state=None):
+        self.model_propensity = clone(model_propensity, safe=False)
+        self.model_regression = clone(model_regression, safe=False)
+        self.model_final = clone(model_final, safe=False)
+        self.multitask_model_final = multitask_model_final
+        self.featurizer = clone(featurizer, safe=False)
+        self.min_propensity = min_propensity
+        self.categories = categories
+        self.cv = cv
+        self.mc_iters = mc_iters
+        self.mc_agg = mc_agg
+        self.random_state = random_state
+
+    def fit(self, y, T, X=None, W=None, sample_weight=None, groups=None):
+        """
+
+        Parameters
+        ----------
+        Y: (n × d_y) matrix or vector of length n
+            Outcomes for each sample
+        T: (n × dₜ) matrix or vector of length n
+            Treatments for each sample
+        X:  (n × dₓ) matrix, optional
+            Features for each sample
+        W:  (n × d_w) matrix, optional
+            Controls for each sample
+        sample_weight:  (n,) vector, optional
+            Weights for each row
+        groups: (n,) vector, optional
+            All rows corresponding to the same group will be kept together during splitting.
+            If groups is not None, the `cv` argument passed to this class's initializer
+            must support a 'groups' argument to its split method.
+
+        Returns
+        -------
+        self
+        """
+        if X is None:
+            raise ValueError("X cannot be None for the DRScorer!")
+
+        self.drlearner_ = DRLearner(model_propensity=self.model_propensity,
+                                    model_regression=self.model_regression,
+                                    model_final=self.model_final,
+                                    multitask_model_final=self.multitask_model_final,
+                                    featurizer=self.featurizer,
+                                    min_propensity=self.min_propensity,
+                                    categories=self.categories,
+                                    cv=self.cv,
+                                    mc_iters=self.mc_iters,
+                                    mc_agg=self.mc_agg,
+                                    random_state=self.random_state)
+        self.drlearner_.fit(y, T, X=None, W=np.hstack([v for v in [X, W] if v is not None]),
+                            sample_weight=sample_weight, groups=groups, cache_values=True)
+        self.base_score_ = self.drlearner_.score_
+        self.dx_ = X.shape[1]
+        return self
+
+    def score(self, cate_model):
+        """
+        Parameters
+        ----------
+        cate_model : instance of fitted BaseCateEstimator
+
+        Returns
+        -------
+        score : double
+            An analogue of the DR-square loss for the causal setting.
+        """
+        Ydr = self.drlearner_.model_final 
+        X = self.drlearner_._cached_values.W[:, :self.dx_]
+        sample_weight = self.drlearner_._cached_values.sample_weight
+        if Ydr.ndim == 1:
+            Ydr = Ydr.reshape((-1, 1))
+            
+        cate = cate_model.const_marginal_effect(X).reshape((-1, Ydr.shape[1]))
+
+        if sample_weight is not None:
+            return 1 - np.mean(np.average((Ydr - cate)**2, weights=sample_weight, axis=0)) / self.base_score_
+        else:
+            return 1 - np.mean((Ydr - cate) ** 2) / self.base_score_
+
+    def best_model(self, cate_models, return_scores=False):
+        """ Chooses the best among a list of models
+
+        Parameters
+        ----------
+        cate_models : list of instance of fitted BaseCateEstimator
+        return_scores : bool, default False
+            Whether to return the list scores of each model
+        Returns
+        -------
+        best_model : instance of fitted BaseCateEstimator
+            The model that achieves the best score
+        best_score : double
+            The score of the best model
+        scores : list of double
+            The list of scores for each of the input models. Returned only if `return_scores=True`.
+        """
+        rscores = [self.score(mdl) for mdl in cate_models]
+        best = np.nanargmax(rscores)
+        if return_scores:
+            return cate_models[best], rscores[best], rscores
+        else:
+            return cate_models[best], rscores[best]
+
+    def ensemble(self, cate_models, eta=1000.0, return_scores=False):
+        """ Ensembles a list of models based on their performance
+
+        Parameters
+        ----------
+        cate_models : list of instance of fitted BaseCateEstimator
+        eta : double, default 1000
+            The soft-max parameter for the ensemble
+        return_scores : bool, default False
+            Whether to return the list scores of each model
+        Returns
+        -------
+        ensemble_model : instance of fitted EnsembleCateEstimator
+            A fitted ensemble cate model that calculates effects based on a weighted
+            version of the input cate models, weighted by a softmax of their score
+            performance
+        ensemble_score : double
+            The score of the ensemble model
+        scores : list of double
+            The list of scores for each of the input models. Returned only if `return_scores=True`.
+        """
+        drscores = np.array([self.score(mdl) for mdl in cate_models])
+        goodinds = np.isfinite(drscores)
+        weights = softmax(eta * drscores[goodinds])
+        goodmodels = [mdl for mdl, good in zip(cate_models, goodinds) if good]
+        ensemble = EnsembleCateEstimator(cate_models=goodmodels, weights=weights)
+        ensemble_score = self.score(ensemble)
+        if return_scores:
+            return ensemble, ensemble_score, drscores
+        else:
+            return ensemble, ensemble_score
diff --git a/econml/tests/test_drscorer.py b/econml/tests/test_drscorer.py
new file mode 100644
index 000000000..b407a0758
--- /dev/null
+++ b/econml/tests/test_drscorer.py
@@ -0,0 +1,88 @@
+# Copyright (c) PyWhy contributors. All rights reserved.
+# Licensed under the MIT License.
+
+import unittest
+import numpy as np
+
+from econml.sklearn_extensions.linear_model import StatsModelsLinearRegression
+np.set_printoptions(suppress=True)
+from sklearn.preprocessing import PolynomialFeatures
+from sklearn.linear_model import LinearRegression, LogisticRegression
+import matplotlib.pyplot as plt
+from sklearn.model_selection import train_test_split
+from joblib import Parallel, delayed
+
+from econml.dml import DML, LinearDML, SparseLinearDML, NonParamDML
+from econml.metalearners import XLearner, TLearner, SLearner, DomainAdaptationLearner
+from econml.dr import DRLearner
+from econml.score import DRScorer
+import scipy.special
+
+
+def _fit_model(name, model, Y, T, X):
+    return name, model.fit(Y, T, X=X)
+
+
+class TestDRScorer(unittest.TestCase):
+
+    def _get_data(self):
+        X = np.random.normal(size=(1000, 3))
+        T = np.random.binomial(2, scipy.special.expit(X[:, 0]))
+        sigma = 0.001
+        y = (1 + .5*X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
+        return y, T, X, X[:, 0]
+    
+
+    def test_comparison(self):
+        def reg():
+            return LinearRegression()
+
+        def clf():
+            return LogisticRegression()
+
+        y, T, X, true_eff = self._get_data()
+        (X_train, X_val, T_train, T_val,
+         Y_train, Y_val, _, true_eff_val) = train_test_split(X, T, y, true_eff, test_size=.4)
+
+        models = [('ldml', LinearDML(model_y=reg(), model_t=clf(), discrete_treatment=True,
+                                     linear_first_stages=False, cv=3)),
+                  ('sldml', SparseLinearDML(model_y=reg(), model_t=clf(), discrete_treatment=True,
+                                            featurizer=PolynomialFeatures(degree=2, include_bias=False),
+                                            linear_first_stages=False, cv=3)),
+                  ('xlearner', XLearner(models=reg(), cate_models=reg(), propensity_model=clf())),
+                  ('dalearner', DomainAdaptationLearner(models=reg(), final_models=reg(), propensity_model=clf())),
+                  ('slearner', SLearner(overall_model=reg())),
+                  ('tlearner', TLearner(models=reg())),
+                  ('drlearner', DRLearner(model_propensity='auto',model_regression='auto',
+                                          model_final=reg(), cv=3)),
+                  ('rlearner', NonParamDML(model_y=reg(), model_t=clf(), model_final=reg(),
+                                           discrete_treatment=True, cv=3)),
+                  ('dml3dlasso', DML(model_y=reg(), model_t=clf(), model_final=reg(), discrete_treatment=True,
+                                     featurizer=PolynomialFeatures(degree=3),
+                                     linear_first_stages=False, cv=3))
+                  ]
+
+        models = Parallel(n_jobs=1, verbose=1)(delayed(_fit_model)(name, mdl,
+                                                                   Y_train, T_train, X_train)
+                                               for name, mdl in models)
+
+        scorer = DRScorer(model_propensity='auto',
+                          model_regression='auto',
+                          model_final=StatsModelsLinearRegression(),
+                          multitask_model_final=False,
+                          featurizer=None,
+                          min_propensity=1e-6,
+                          cv=3, 
+                          mc_iters=2, 
+                          mc_agg='median')
+        scorer.fit(Y_val, T_val, X=X_val)
+        rscore = [scorer.score(mdl) for _, mdl in models]
+        rootpehe_score = [np.sqrt(np.mean((true_eff_val.flatten() - mdl.effect(X_val).flatten())**2))
+                          for _, mdl in models]
+        assert LinearRegression().fit(np.array(rscore).reshape(-1, 1), np.array(rootpehe_score)).coef_ < 0.5
+        mdl, _ = scorer.best_model([mdl for _, mdl in models])
+        rootpehe_best = np.sqrt(np.mean((true_eff_val.flatten() - mdl.effect(X_val).flatten())**2))
+        assert rootpehe_best < 1.5 * np.min(rootpehe_score) + 0.05
+        mdl, _ = scorer.ensemble([mdl for _, mdl in models])
+        rootpehe_ensemble = np.sqrt(np.mean((true_eff_val.flatten() - mdl.effect(X_val).flatten())**2))
+        assert rootpehe_ensemble < 1.5 * np.min(rootpehe_score) + 0.05

From d9c3129c78685da4044f687141be43d629c5dd70 Mon Sep 17 00:00:00 2001
From: kgao <kevin.leo.gao@gmail.com>
Date: Tue, 11 Apr 2023 16:01:38 -0400
Subject: [PATCH 02/12] add routing for drscorer and tester

Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/score/__init__.py |  2 ++
 econml/score/drscorer.py | 13 ++++++++-----
 2 files changed, 10 insertions(+), 5 deletions(-)

diff --git a/econml/score/__init__.py b/econml/score/__init__.py
index 45c0c740e..f01449cc2 100644
--- a/econml/score/__init__.py
+++ b/econml/score/__init__.py
@@ -7,7 +7,9 @@
 """
 
 from .rscorer import RScorer
+from .drscorer import DRScorer
 from .ensemble_cate import EnsembleCateEstimator
 
 __all__ = ['RScorer',
+           'DRScorer',
            'EnsembleCateEstimator']
diff --git a/econml/score/drscorer.py b/econml/score/drscorer.py
index a3c1a9876..d628393b4 100644
--- a/econml/score/drscorer.py
+++ b/econml/score/drscorer.py
@@ -206,18 +206,21 @@ def score(self, cate_model):
         score : double
             An analogue of the DR-square loss for the causal setting.
         """
-        Ydr = self.drlearner_.model_final 
+        g, p = self.drlearner_._cached_values.nuisances
+        Y =  self.drlearner_._cached_values.Y
+        T =  self.drlearner_._cached_values.T
+        Ydr = g  + (Y - g) / p * T
         X = self.drlearner_._cached_values.W[:, :self.dx_]
         sample_weight = self.drlearner_._cached_values.sample_weight
         if Ydr.ndim == 1:
             Ydr = Ydr.reshape((-1, 1))
-            
-        cate = cate_model.const_marginal_effect(X).reshape((-1, Ydr.shape[1]))
 
+        effects = cate_model.const_marginal_effect(X).reshape((-1, Ydr.shape[1]))
+        
         if sample_weight is not None:
-            return 1 - np.mean(np.average((Ydr - cate)**2, weights=sample_weight, axis=0)) / self.base_score_
+            return 1 - np.mean(np.average((Ydr - effects)**2, weights=sample_weight, axis=0)) / self.base_score_
         else:
-            return 1 - np.mean((Ydr - cate) ** 2) / self.base_score_
+            return 1 - np.mean((Ydr - effects) ** 2) / self.base_score_
 
     def best_model(self, cate_models, return_scores=False):
         """ Chooses the best among a list of models

From 42d817a698e6f53c491deca5a358f6914d5d21d3 Mon Sep 17 00:00:00 2001
From: kgao <kevin.leo.gao@gmail.com>
Date: Mon, 1 May 2023 16:47:47 -0400
Subject: [PATCH 03/12] fix linting and formular

Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/score/drscorer.py      | 16 +++++++---------
 econml/tests/test_drscorer.py |  9 ++++-----
 2 files changed, 11 insertions(+), 14 deletions(-)

diff --git a/econml/score/drscorer.py b/econml/score/drscorer.py
index d628393b4..2a436f2e7 100644
--- a/econml/score/drscorer.py
+++ b/econml/score/drscorer.py
@@ -10,14 +10,13 @@
 
 
 class DRScorer:
-    """ Scorer based on the DRLearner loss. Fits regression model g (using T-Learner) and propensity model p at fit time
-    and calculates the regression and propensity of the evaluation data::
+    """ Scorer based on the DRLearner loss. Fits regression model g (using T-Learner) and propensity model p at fit
+    time and calculates the regression and propensity of the evaluation data::
 
         g (model_regression) = E[Y | X, W, T]
-        
         p (model_propensity) = Pr[T | X, W]
 
-        Ydr(g,p) = g  + (Y - g ) / p * T
+        Ydr(g,p) = g(X,W,T) + (Y - g(X,W,T)) / p_T(X,W)
 
     Then for any given cate model calculates the loss::
 
@@ -206,17 +205,16 @@ def score(self, cate_model):
         score : double
             An analogue of the DR-square loss for the causal setting.
         """
-        g, p = self.drlearner_._cached_values.nuisances
-        Y =  self.drlearner_._cached_values.Y
-        T =  self.drlearner_._cached_values.T
-        Ydr = g  + (Y - g) / p * T
+        Y = self.drlearner_._cached_values.Y
+        T = self.drlearner_._cached_values.T
+        Y_pred, _ = self.drlearner_._cached_values.nuisances
+        Ydr = Y_pred[..., 1:] - Y_pred[..., [0]]
         X = self.drlearner_._cached_values.W[:, :self.dx_]
         sample_weight = self.drlearner_._cached_values.sample_weight
         if Ydr.ndim == 1:
             Ydr = Ydr.reshape((-1, 1))
 
         effects = cate_model.const_marginal_effect(X).reshape((-1, Ydr.shape[1]))
-        
         if sample_weight is not None:
             return 1 - np.mean(np.average((Ydr - effects)**2, weights=sample_weight, axis=0)) / self.base_score_
         else:
diff --git a/econml/tests/test_drscorer.py b/econml/tests/test_drscorer.py
index b407a0758..d8586f130 100644
--- a/econml/tests/test_drscorer.py
+++ b/econml/tests/test_drscorer.py
@@ -29,9 +29,8 @@ def _get_data(self):
         X = np.random.normal(size=(1000, 3))
         T = np.random.binomial(2, scipy.special.expit(X[:, 0]))
         sigma = 0.001
-        y = (1 + .5*X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
+        y = (1 + .5 * X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
         return y, T, X, X[:, 0]
-    
 
     def test_comparison(self):
         def reg():
@@ -53,7 +52,7 @@ def clf():
                   ('dalearner', DomainAdaptationLearner(models=reg(), final_models=reg(), propensity_model=clf())),
                   ('slearner', SLearner(overall_model=reg())),
                   ('tlearner', TLearner(models=reg())),
-                  ('drlearner', DRLearner(model_propensity='auto',model_regression='auto',
+                  ('drlearner', DRLearner(model_propensity='auto', model_regression='auto',
                                           model_final=reg(), cv=3)),
                   ('rlearner', NonParamDML(model_y=reg(), model_t=clf(), model_final=reg(),
                                            discrete_treatment=True, cv=3)),
@@ -72,8 +71,8 @@ def clf():
                           multitask_model_final=False,
                           featurizer=None,
                           min_propensity=1e-6,
-                          cv=3, 
-                          mc_iters=2, 
+                          cv=3,
+                          mc_iters=2,
                           mc_agg='median')
         scorer.fit(Y_val, T_val, X=X_val)
         rscore = [scorer.score(mdl) for _, mdl in models]

From 12e9da981d83e04e255dee476ad9b0cbe511fac6 Mon Sep 17 00:00:00 2001
From: Keith Battocchi <kebatt@microsoft.com>
Date: Tue, 21 Mar 2023 00:34:48 -0400
Subject: [PATCH 04/12] Fix status checks in CI workflow

Signed-off-by: Keith Battocchi <kebatt@microsoft.com>
Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 .github/workflows/ci.yml | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
index 82ba25bc6..0e67498c7 100644
--- a/.github/workflows/ci.yml
+++ b/.github/workflows/ci.yml
@@ -224,7 +224,7 @@ jobs:
     steps:
     - run: exit 1
       name: At least one check failed or was cancelled
-      if: ${{ !(success()) }}
+      if: ${{ contains(needs.*.result, 'failure') || contains(needs.*.result, 'cancelled') }}
     - run: exit 0
       name: All checks passed
-      if: ${{ success() }}
+      if: ${{ !(contains(needs.*.result, 'failure') || contains(needs.*.result, 'cancelled')) }}

From 83851c94212a9d3c6cc39f99e9a30bb25d4846d1 Mon Sep 17 00:00:00 2001
From: Keith Battocchi <kebatt@microsoft.com>
Date: Wed, 26 Apr 2023 12:38:18 -0400
Subject: [PATCH 05/12] Fix #760

Signed-off-by: Keith Battocchi <kebatt@microsoft.com>
Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/_ortho_learner.py | 2 +-
 econml/tests/test_dml.py | 1 +
 2 files changed, 2 insertions(+), 1 deletion(-)

diff --git a/econml/_ortho_learner.py b/econml/_ortho_learner.py
index fdc9e7693..39a300ade 100644
--- a/econml/_ortho_learner.py
+++ b/econml/_ortho_learner.py
@@ -899,7 +899,7 @@ def score(self, Y, T, X=None, W=None, Z=None, sample_weight=None, groups=None):
                     nuisances = [np.zeros((n_iters * n_splits,) + nuis.shape) for nuis in nuisance_temp]
 
                 for it, nuis in enumerate(nuisance_temp):
-                    nuisances[it][i * n_iters + j] = nuis
+                    nuisances[it][j * n_iters + i] = nuis
 
         for it in range(len(nuisances)):
             nuisances[it] = np.mean(nuisances[it], axis=0)
diff --git a/econml/tests/test_dml.py b/econml/tests/test_dml.py
index 8105f7ec7..57b5c3ec4 100644
--- a/econml/tests/test_dml.py
+++ b/econml/tests/test_dml.py
@@ -1095,6 +1095,7 @@ def test_nuisance_scores(self):
                 est.fit(y, T, X=X, W=W)
                 assert len(est.nuisance_scores_t) == len(est.nuisance_scores_y) == mc_iters
                 assert len(est.nuisance_scores_t[0]) == len(est.nuisance_scores_y[0]) == cv
+                est.score(y, T, X=X, W=W)
 
     def test_categories(self):
         dmls = [LinearDML, SparseLinearDML]

From 06252f2e43150e87759c64af85ecb01e9809cac4 Mon Sep 17 00:00:00 2001
From: Keith Battocchi <kebatt@microsoft.com>
Date: Wed, 3 May 2023 12:42:15 -0400
Subject: [PATCH 06/12] Enable compatability with pandas 2.0

Signed-off-by: Keith Battocchi <kebatt@microsoft.com>
Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/data/dynamic_panel_dgp.py                                | 2 +-
 .../Causal Interpretation for Ames Housing Price.ipynb          | 2 +-
 .../Causal Interpretation for Employee Attrition Dataset.ipynb  | 2 +-
 3 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/econml/data/dynamic_panel_dgp.py b/econml/data/dynamic_panel_dgp.py
index 82b842912..cb7ffa17c 100644
--- a/econml/data/dynamic_panel_dgp.py
+++ b/econml/data/dynamic_panel_dgp.py
@@ -135,7 +135,7 @@ def simulate_residuals(ind):
 
 
 def simulate_residuals_all(res_df):
-    res_df_new = res_df.copy(deep=True)
+    res_df_new = res_df.astype(dtype='float64', copy=True, errors='raise')
     for i in range(res_df.shape[1]):
         res_df_new.iloc[:, i] = simulate_residuals(i)
     # demean the new residual again
diff --git a/notebooks/Solutions/Causal Interpretation for Ames Housing Price.ipynb b/notebooks/Solutions/Causal Interpretation for Ames Housing Price.ipynb
index 3b7b7d936..504d9e0f7 100644
--- a/notebooks/Solutions/Causal Interpretation for Ames Housing Price.ipynb	
+++ b/notebooks/Solutions/Causal Interpretation for Ames Housing Price.ipynb	
@@ -598,7 +598,7 @@
     "X = Xy.drop(columns = 'SalePrice')\n",
     "X_ohe = (\n",
     "    X\n",
-    "    .pipe(pd.get_dummies, prefix_sep = '_OHE_', columns = categorical)\n",
+    "    .pipe(pd.get_dummies, prefix_sep = '_OHE_', columns = categorical, dtype='uint8')\n",
     ")\n",
     "y = Xy['SalePrice']"
    ]
diff --git a/notebooks/Solutions/Causal Interpretation for Employee Attrition Dataset.ipynb b/notebooks/Solutions/Causal Interpretation for Employee Attrition Dataset.ipynb
index 24f00b8c2..94ba335da 100644
--- a/notebooks/Solutions/Causal Interpretation for Employee Attrition Dataset.ipynb	
+++ b/notebooks/Solutions/Causal Interpretation for Employee Attrition Dataset.ipynb	
@@ -432,7 +432,7 @@
    "outputs": [],
    "source": [
     "categorical = []\n",
-    "for col, value in attritionXData.iteritems():\n",
+    "for col, value in attritionXData.items():\n",
     "    if value.dtype == \"object\":\n",
     "        categorical.append(col)\n",
     "\n",

From 4791e0c648c23ad95fa67489ac93be318cf19299 Mon Sep 17 00:00:00 2001
From: Keith Battocchi <kebatt@microsoft.com>
Date: Wed, 3 May 2023 13:30:18 -0400
Subject: [PATCH 07/12] Bump supported shap version limit

Signed-off-by: Keith Battocchi <kebatt@microsoft.com>
Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 setup.cfg | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.cfg b/setup.cfg
index 2e0ca2c37..440cad679 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -39,7 +39,7 @@ install_requires =
     joblib >= 0.13.0
     statsmodels >= 0.10
     pandas
-    shap >= 0.38.1, < 0.41.0
+    shap >= 0.38.1, < 0.42.0
     lightgbm
 test_suite = econml.tests
 tests_require =

From 3d96e0af1d4ade348a6389c1318fb4ff530446bd Mon Sep 17 00:00:00 2001
From: Keith Battocchi <kebatt@microsoft.com>
Date: Wed, 3 May 2023 15:58:29 -0400
Subject: [PATCH 08/12] Use verbose pip install when debugging workflows

Signed-off-by: Keith Battocchi <kebatt@microsoft.com>
Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 .github/workflows/ci.yml | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/.github/workflows/ci.yml b/.github/workflows/ci.yml
index 0e67498c7..413635a8f 100644
--- a/.github/workflows/ci.yml
+++ b/.github/workflows/ci.yml
@@ -124,7 +124,8 @@ jobs:
     - run: sudo apt-get -yq install graphviz
       name: Install graphviz
       if: ${{ matrix.install_graphviz }}
-    - run: pip install -e .${{ matrix.extras }}
+    # Add verbose flag to pip installation if in debug mode
+    - run: pip install -e .${{ matrix.extras }} ${{ fromJSON('["","-v"]')[runner.debug] }}
       name: Install econml
     - run: pip install pytest pytest-runner jupyter jupyter-client nbconvert nbformat seaborn xgboost tqdm
       name: Install test and notebook requirements
@@ -183,7 +184,8 @@ jobs:
         python-version: ${{ matrix.python-version }}
     - run: python -m pip install --upgrade pip && pip install --upgrade setuptools
       name: Ensure latest pip and setuptools
-    - run: pip install -e .${{ matrix.extras }}
+    # Add verbose flag to pip installation if in debug mode
+    - run: pip install -e .${{ matrix.extras }} ${{ fromJSON('["","-v"]')[runner.debug] }}
       name: Install econml
     - run: pip install pytest pytest-runner coverage
       name: Install pytest

From a05e1bab46b7c2799c7d71cdbe38d2c84904a8bf Mon Sep 17 00:00:00 2001
From: Keith Battocchi <kebatt@microsoft.com>
Date: Fri, 5 May 2023 17:33:50 -0400
Subject: [PATCH 09/12] Fix numpy 1.24 compatibility

Signed-off-by: Keith Battocchi <kebatt@microsoft.com>
Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/_ensemble/_ensemble.py | 4 ++--
 setup.cfg                     | 4 ++++
 2 files changed, 6 insertions(+), 2 deletions(-)

diff --git a/econml/_ensemble/_ensemble.py b/econml/_ensemble/_ensemble.py
index ff833f9ec..cdc23da4c 100644
--- a/econml/_ensemble/_ensemble.py
+++ b/econml/_ensemble/_ensemble.py
@@ -158,8 +158,8 @@ def _partition_estimators(n_estimators, n_jobs):
 
     # Partition estimators between jobs
     n_estimators_per_job = np.full(n_jobs, n_estimators // n_jobs,
-                                   dtype=np.int)
-    n_estimators_per_job[:n_estimators % n_jobs] += 1
+                                   dtype=int)
+    n_estimators_per_job[: n_estimators % n_jobs] += 1
     starts = np.cumsum(n_estimators_per_job)
 
     return n_jobs, n_estimators_per_job.tolist(), [0] + starts.tolist()
diff --git a/setup.cfg b/setup.cfg
index 440cad679..70529d9a0 100644
--- a/setup.cfg
+++ b/setup.cfg
@@ -58,6 +58,8 @@ tf =
     tensorflow > 1.10, < 2.3;python_version < '3.9'
     ; Version capped due to tensorflow incompatibility
     protobuf < 4
+    ; Version capped due to tensorflow incompatibility
+    numpy < 1.24
 plt =
     graphviz
     ; Version capped due to shap incompatibility
@@ -70,6 +72,8 @@ all =
     tensorflow > 1.10, < 2.3
     ; Version capped due to tensorflow incompatibility
     protobuf < 4
+    ; Version capped due to tensorflow incompatibility
+    numpy < 1.24
     ; Version capped due to shap incompatibility
     matplotlib < 3.6.0
     dowhy < 0.9

From b5a29825d559c88bb1f0a8b09c8a8dc68800c872 Mon Sep 17 00:00:00 2001
From: kgao <kevin.leo.gao@gmail.com>
Date: Thu, 18 May 2023 16:19:34 -0400
Subject: [PATCH 10/12] update test_drscorer

Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/tests/test_drscorer.py | 143 +++++++++++++++++-----------------
 1 file changed, 71 insertions(+), 72 deletions(-)

diff --git a/econml/tests/test_drscorer.py b/econml/tests/test_drscorer.py
index d8586f130..a0a570966 100644
--- a/econml/tests/test_drscorer.py
+++ b/econml/tests/test_drscorer.py
@@ -3,85 +3,84 @@
 
 import unittest
 import numpy as np
-
-from econml.sklearn_extensions.linear_model import StatsModelsLinearRegression
-np.set_printoptions(suppress=True)
-from sklearn.preprocessing import PolynomialFeatures
-from sklearn.linear_model import LinearRegression, LogisticRegression
-import matplotlib.pyplot as plt
-from sklearn.model_selection import train_test_split
-from joblib import Parallel, delayed
-
-from econml.dml import DML, LinearDML, SparseLinearDML, NonParamDML
-from econml.metalearners import XLearner, TLearner, SLearner, DomainAdaptationLearner
-from econml.dr import DRLearner
-from econml.score import DRScorer
 import scipy.special
+from sklearn.linear_model import LassoCV
+from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
+from sklearn.model_selection import KFold, StratifiedKFold
+from sklearn.utils import check_random_state
 
-
-def _fit_model(name, model, Y, T, X):
-    return name, model.fit(Y, T, X=X)
-
-
-class TestDRScorer(unittest.TestCase):
-
-    def _get_data(self):
+class TestDRLearner(unittest.TestCase):
+    def test_default_models(self):
+        np.random.seed(123)
         X = np.random.normal(size=(1000, 3))
         T = np.random.binomial(2, scipy.special.expit(X[:, 0]))
         sigma = 0.001
-        y = (1 + .5 * X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
-        return y, T, X, X[:, 0]
+        y = (1 + 0.5 * X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
+        est = DRLearner()
+        est.fit(y, T, X=X, W=None)
+        assert est.const_marginal_effect(X[:2]).shape == (2, 2)
+        assert est.effect(X[:2], T0=0, T1=1).shape == (2,)
+        assert isinstance(est.score_, float)
+        assert isinstance(est.score(y, T, X=X), float)
+        assert len(est.model_cate(T=1).coef_.shape) == 1
+        assert len(est.model_cate(T=2).coef_.shape) == 1
+        assert isinstance(est.cate_feature_names(), list)
+        assert isinstance(est.models_regression[0][0].coef_, np.ndarray)
+        assert isinstance(est.models_propensity[0][0].coef_, np.ndarray)
 
-    def test_comparison(self):
-        def reg():
-            return LinearRegression()
-
-        def clf():
-            return LogisticRegression()
+    def test_custom_models(self):
+        np.random.seed(123)
+        X = np.random.normal(size=(1000, 3))
+        T = np.random.binomial(2, scipy.special.expit(X[:, 0]))
+        sigma = 0.01
+        y = (1 + 0.5 * X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
+        est = DRLearner(
+            model_propensity=RandomForestClassifier(n_estimators=100, min_samples_leaf=10),
+            model_regression=RandomForestRegressor(n_estimators=100, min_samples_leaf=10),
+            model_final=LassoCV(cv=3),
+            featurizer=None
+        )
+        est.fit(y, T, X=X, W=None)
+        assert isinstance(est.score_, float)
+        assert est.const_marginal_effect(X[:3]).shape == (3, 2)
+        assert len(est.model_cate(T=2).coef_.shape) == 1
+        assert isinstance(est.model_cate(T=2).intercept_, float)
+        assert len(est.model_cate(T=1).coef_.shape) == 1
+        assert isinstance(est.model_cate(T=1).intercept_, float)
 
-        y, T, X, true_eff = self._get_data()
-        (X_train, X_val, T_train, T_val,
-         Y_train, Y_val, _, true_eff_val) = train_test_split(X, T, y, true_eff, test_size=.4)
+    def test_cv_splitting_strategy(self):
+        np.random.seed(123)
+        X = np.random.normal(size=(1000, 3))
+        T = np.random.binomial(2, scipy.special.expit(X[:, 0]))
+        sigma = 0.001
+        y = (1 + 0.5 * X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
+        est = DRLearner(cv=2)
+        est.fit(y, T, X=X, W=None)
+        assert est.const_marginal_effect(X[:2]).shape == (2, 2)
 
-        models = [('ldml', LinearDML(model_y=reg(), model_t=clf(), discrete_treatment=True,
-                                     linear_first_stages=False, cv=3)),
-                  ('sldml', SparseLinearDML(model_y=reg(), model_t=clf(), discrete_treatment=True,
-                                            featurizer=PolynomialFeatures(degree=2, include_bias=False),
-                                            linear_first_stages=False, cv=3)),
-                  ('xlearner', XLearner(models=reg(), cate_models=reg(), propensity_model=clf())),
-                  ('dalearner', DomainAdaptationLearner(models=reg(), final_models=reg(), propensity_model=clf())),
-                  ('slearner', SLearner(overall_model=reg())),
-                  ('tlearner', TLearner(models=reg())),
-                  ('drlearner', DRLearner(model_propensity='auto', model_regression='auto',
-                                          model_final=reg(), cv=3)),
-                  ('rlearner', NonParamDML(model_y=reg(), model_t=clf(), model_final=reg(),
-                                           discrete_treatment=True, cv=3)),
-                  ('dml3dlasso', DML(model_y=reg(), model_t=clf(), model_final=reg(), discrete_treatment=True,
-                                     featurizer=PolynomialFeatures(degree=3),
-                                     linear_first_stages=False, cv=3))
-                  ]
+    def test_mc_iters(self):
+        np.random.seed(123)
+        X = np.random.normal(size=(1000, 3))
+        T = np.random.binomial(2, scipy.special.expit(X[:, 0]))
+        sigma = 0.001
+        y = (1 + 0.5 * X[:, 0]) * T + X[:, 0] + np.random.normal(0, sigma, size=(1000,))
+        est = DRLearner()
+        est.fit(y, T, X=X, W=None, inference='bootstrap', n_bootstrap_samples=50)
 
-        models = Parallel(n_jobs=1, verbose=1)(delayed(_fit_model)(name, mdl,
-                                                                   Y_train, T_train, X_train)
-                                               for name, mdl in models)
+        self.assertAlmostEqual(est.effect(X[:2], T0=0, T1=1, inference='bootstrap', n_bootstrap_samples=50).shape[0], 50)
+        self.assertAlmostEqual(est.effect_interval(X[:2], T0=0, T1=1, alpha=0.05, inference='bootstrap',
+                                                   n_bootstrap_samples=50).shape, (2, 50, 2))
+        self.assertAlmostEqual(est.ortho_summary(X[:2], T0=0, T1=1, inference='bootstrap',
+                                                 n_bootstrap_samples=50).shape, (2, 2, 5))
+        self.assertAlmostEqual(est.ortho_intervals(X[:2], T0=0, T1=1, inference='bootstrap', n_bootstrap_samples=50,
+                                                   method='normal').shape, (2, 2, 2, 2))
 
-        scorer = DRScorer(model_propensity='auto',
-                          model_regression='auto',
-                          model_final=StatsModelsLinearRegression(),
-                          multitask_model_final=False,
-                          featurizer=None,
-                          min_propensity=1e-6,
-                          cv=3,
-                          mc_iters=2,
-                          mc_agg='median')
-        scorer.fit(Y_val, T_val, X=X_val)
-        rscore = [scorer.score(mdl) for _, mdl in models]
-        rootpehe_score = [np.sqrt(np.mean((true_eff_val.flatten() - mdl.effect(X_val).flatten())**2))
-                          for _, mdl in models]
-        assert LinearRegression().fit(np.array(rscore).reshape(-1, 1), np.array(rootpehe_score)).coef_ < 0.5
-        mdl, _ = scorer.best_model([mdl for _, mdl in models])
-        rootpehe_best = np.sqrt(np.mean((true_eff_val.flatten() - mdl.effect(X_val).flatten())**2))
-        assert rootpehe_best < 1.5 * np.min(rootpehe_score) + 0.05
-        mdl, _ = scorer.ensemble([mdl for _, mdl in models])
-        rootpehe_ensemble = np.sqrt(np.mean((true_eff_val.flatten() - mdl.effect(X_val).flatten())**2))
-        assert rootpehe_ensemble < 1.5 * np.min(rootpehe_score) + 0.05
+    def test_score(self):
+        np.random.seed(123)
+        y = np.random.normal(size=(1000,))
+        T = np.random.binomial(2, 0.5, size=(1000,))
+        X = np.random.normal(size=(1000, 3))
+        est = DRScorer()
+        est.fit(y, T, X=X, W=None)
+        score = est.score()
+        self.assertAlmostEqual(score, 0.05778546)

From 2c0c9286fd708f4ad169753ad6835c1f1fa0acd9 Mon Sep 17 00:00:00 2001
From: kgao <kevin.leo.gao@gmail.com>
Date: Thu, 18 May 2023 16:31:14 -0400
Subject: [PATCH 11/12] add baseline model in unit test

Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/tests/test_drscorer.py | 7 +++++++
 1 file changed, 7 insertions(+)

diff --git a/econml/tests/test_drscorer.py b/econml/tests/test_drscorer.py
index a0a570966..636646366 100644
--- a/econml/tests/test_drscorer.py
+++ b/econml/tests/test_drscorer.py
@@ -84,3 +84,10 @@ def test_score(self):
         est.fit(y, T, X=X, W=None)
         score = est.score()
         self.assertAlmostEqual(score, 0.05778546)
+        # Test using baseline method (e.g., RScorer)
+        # Replace the following lines with the appropriate baseline method and its parameters
+        baseline_est = BaselineScorer()
+        baseline_est.fit(y, T, X=X, W=None)
+        score_baseline = baseline_est.score()
+        # Perform the comparison test
+        self.assertAlmostEqual(score_dr, score_baseline)

From 30e3d880610811d23a42b2d9c7b5b6f1cc7d5110 Mon Sep 17 00:00:00 2001
From: kgao <kevin.leo.gao@gmail.com>
Date: Fri, 19 May 2023 13:54:41 -0400
Subject: [PATCH 12/12] Cleanup linting and imports

Signed-off-by: kgao <kevin.leo.gao@gmail.com>
---
 econml/tests/test_drscorer.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/econml/tests/test_drscorer.py b/econml/tests/test_drscorer.py
index 636646366..cbb15fb74 100644
--- a/econml/tests/test_drscorer.py
+++ b/econml/tests/test_drscorer.py
@@ -8,6 +8,9 @@
 from sklearn.ensemble import RandomForestClassifier, RandomForestRegressor
 from sklearn.model_selection import KFold, StratifiedKFold
 from sklearn.utils import check_random_state
+from econml.score import DRScorer
+from econml.dr import DRLearner
+
 
 class TestDRLearner(unittest.TestCase):
     def test_default_models(self):
@@ -67,13 +70,14 @@ def test_mc_iters(self):
         est = DRLearner()
         est.fit(y, T, X=X, W=None, inference='bootstrap', n_bootstrap_samples=50)
 
-        self.assertAlmostEqual(est.effect(X[:2], T0=0, T1=1, inference='bootstrap', n_bootstrap_samples=50).shape[0], 50)
+        self.aseertAlmostEqual(est.effect(X[:2], T0=0, T1=1, inference='bootstrap',
+                               n_bootstrap_samples=50).shape[0], 50)
         self.assertAlmostEqual(est.effect_interval(X[:2], T0=0, T1=1, alpha=0.05, inference='bootstrap',
-                                                   n_bootstrap_samples=50).shape, (2, 50, 2))
+                               n_bootstrap_samples=50).shape, (2, 50, 2))
         self.assertAlmostEqual(est.ortho_summary(X[:2], T0=0, T1=1, inference='bootstrap',
-                                                 n_bootstrap_samples=50).shape, (2, 2, 5))
-        self.assertAlmostEqual(est.ortho_intervals(X[:2], T0=0, T1=1, inference='bootstrap', n_bootstrap_samples=50,
-                                                   method='normal').shape, (2, 2, 2, 2))
+                               n_bootstrap_samples=50).shape, (2, 2, 5))
+        self.assertAlmostEqual(est.ortho_intervals(X[:2], T0=0, T1=1, inference='bootstrap',
+                               n_bootstrap_samples=50, method='normal').shape, (2, 2, 2, 2))
 
     def test_score(self):
         np.random.seed(123)