DOC add examples

scikit-learn-contrib · glemaitre · Aug 24, 2017 · Aug 10, 2017 · Aug 11, 2017 · Aug 11, 2017
commit f484631e059f6057bd3c4434d6d1556bd1b4b832
diff --git a/doc/whats_new.rst b/doc/whats_new.rst
@@ -33,6 +33,10 @@ New features
 Enhancement
 ~~~~~~~~~~~
 
+- Add :class:`ensemble.BalancedBaggingClassifier` which is a meta estimator to
+ directly use the :class:`ensemble.EasyEnsemble` chained with a classifier. By
+ `Guillaume Lemaitre`_.
+
 - :func:`datasets.make_imbalance` take a ratio similarly to other samplers. It
  supports multiclass. By `Guillaume Lemaitre`_.
 

diff --git a/examples/ensemble/plot_comparison_bagging_classifier.py b/examples/ensemble/plot_comparison_bagging_classifier.py
@@ -0,0 +1,104 @@
+"""
+=========================================================
+Comparison of balanced and imbalanced bagging classifiers
+=========================================================
+
+This example shows the benefit of balancing the training set when using a
+bagging classifier. ``BalancedBaggingClassifier`` chains a
+``RandomUnderSampler`` and a given classifier while ``BaggingClassifier`` is
+using directly the imbalanced data.
+
+Balancing the data set before training the classifier improve the
+classification performance. In addition, it avoids the ensemble to focus on the
+majority class which would be a known drawback of the decision tree
+classifiers.
+
+"""
+
+# Authors: Guillaume Lemaitre <g.lemaitre58@gmail.com>
+# License: MIT
+
+from collections import Counter
+import itertools
+
+import matplotlib.pyplot as plt
+import numpy as np
+
+from sklearn.datasets import load_iris
+from sklearn.model_selection import train_test_split
+from sklearn.ensemble import BaggingClassifier
+from sklearn.metrics import confusion_matrix
+
+from imblearn.datasets import make_imbalance
+from imblearn.ensemble import BalancedBaggingClassifier
+
+from imblearn.metrics import classification_report_imbalanced
+
+
+def plot_confusion_matrix(cm, classes,
+ normalize=False,
+ title='Confusion matrix',
+ cmap=plt.cm.Blues):
+ """
+ This function prints and plots the confusion matrix.
+ Normalization can be applied by setting `normalize=True`.
+ """
+ if normalize:
+ cm = cm.astype('float') / cm.sum(axis=1)[:, np.newaxis]
+ print("Normalized confusion matrix")
+ else:
+ print('Confusion matrix, without normalization')
+
+ print(cm)
+
+ plt.imshow(cm, interpolation='nearest', cmap=cmap)
+ plt.title(title)
+ plt.colorbar()
+ tick_marks = np.arange(len(classes))
+ plt.xticks(tick_marks, classes, rotation=45)
+ plt.yticks(tick_marks, classes)
+
+ fmt = '.2f' if normalize else 'd'
+ thresh = cm.max() / 2.
+ for i, j in itertools.product(range(cm.shape[0]), range(cm.shape[1])):
+ plt.text(j, i, format(cm[i, j], fmt),
+ horizontalalignment="center",
+ color="white" if cm[i, j] > thresh else "black")
+
+ plt.tight_layout()
+ plt.ylabel('True label')
+ plt.xlabel('Predicted label')
+
+
+iris = load_iris()
+X, y = make_imbalance(iris.data, iris.target, ratio={0: 25, 1: 40, 2: 50},
+ random_state=0)
+X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0)
+
+bagging = BaggingClassifier(random_state=0)
+balanced_bagging = BalancedBaggingClassifier(random_state=0)
+
+print('Class distribution of the training set: {}'.format(Counter(y_train)))
+
+bagging.fit(X_train, y_train)
+balanced_bagging.fit(X_train, y_train)
+
+print('Class distribution of the test set: {}'.format(Counter(y_test)))
+
+print('Classification results using a bagging classifier on imbalanced data')
+y_pred_bagging = bagging.predict(X_test)
+print(classification_report_imbalanced(y_test, y_pred_bagging))
+cm_bagging = confusion_matrix(y_test, y_pred_bagging)
+plt.figure()
+plot_confusion_matrix(cm_bagging, classes=iris.target_names,
+ title='Confusion matrix using BaggingClassifier')
+
+print('Classification results using a bagging classifier on balanced data')
+y_pred_balanced_bagging = balanced_bagging.predict(X_test)
+print(classification_report_imbalanced(y_test, y_pred_balanced_bagging))
+cm_balanced_bagging = confusion_matrix(y_test, y_pred_balanced_bagging)
+plt.figure()
+plot_confusion_matrix(cm_balanced_bagging, classes=iris.target_names,
+ title='Confusion matrix using BalancedBaggingClassifier')
+
+plt.show()
diff --git a/imblearn/ensemble/easy_ensemble.py b/imblearn/ensemble/easy_ensemble.py
@@ -285,9 +285,30 @@ class BalancedBaggingClassifier(BaggingClassifier):
  was never left out during the bootstrap. In this case,
  `oob_decision_function_` might contain NaN.
 
+ >>> from collections import Counter
+ >>> from sklearn.datasets import make_classification
+ >>> from sklearn.model_selection import train_test_split
+ >>> from sklearn.metrics import confusion_matrix
+ >>> from imblearn.ensemble import \
+BalancedBaggingClassifier # doctest: +NORMALIZE_WHITESPACE
+ >>> X, y = make_classification(n_classes=2, class_sep=2,
+ ... weights=[0.1, 0.9], n_informative=3, n_redundant=1, flip_y=0,
+ ... n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)
+ >>> print('Original dataset shape {}'.format(Counter(y)))
+ Original dataset shape Counter({1: 900, 0: 100})
+ >>> X_train, X_test, y_train, y_test = train_test_split(X, y,
+ ... random_state=0)
+ >>> bbc = BalancedBaggingClassifier(random_state=42)
+ >>> bbc.fit(X_train, y_train) # doctest: +ELLIPSIS
+ BalancedBaggingClassifier(...)
+ >>> y_pred = bbc.predict(X_test)
+ >>> print(confusion_matrix(y_test, y_pred))
+ [[ 23 0]
+ [ 2 225]]
+
  References
  ----------
- .. [1] L. Breiman, "Pasting small votes for classification in large
+ .. [1] L". Breiman, Pasting small votes for classification in large
  databases and on-line", Machine Learning, 36(1), 85-103, 1999.
  .. [2] L. Breiman, "Bagging predictors", Machine Learning, 24(2), 123-140,
  1996.