AdaBoost avec sklearn

Formation des modèles d'arbres

Let's go !

3.3 Entraîner des modèles AdaBoost avec Sklearn

Maintenant qu’AdaBoost n’a plus de secret pour vous, vous allez découvrir comment utiliser aux mieux la fonction AdaBoost de Sklearn.

Cette fonction possède un grand nombre de paramètres : ne pas les comprendre et les renseigner au hasard donne souvent de très mauvais résultats.

A/ Les paramètres

base_estimators

La paramètre base_estimator définit quel algorithme utiliser dans notre algorithme de boosting. On peut utiliser n’importe quel algorithme présent via sklearn. Par défaut, on utilise le DecisionTreeClassifier.

n_estimator

Le paramètre n_estimators contrôle le nombre d’arbres à entraîner pour notre ensemble.

learning_rate

Le taux d’apprentissage ou learning_rate réduit la contribution de chaque modèle. Il existe un compromis entre learning_rate et n_estimateurs. Plus le paramètre learning_rate est faible, plus il faudra d’arbres pour obtenir des performances acceptables.

random_state

Ce paramètre permet d’initialiser une seed. C’est-à-dire que les nombres générés aléatoirement seront toujours les mêmes. C’est intéressant à utiliser durant les tests où l’on voudra tomber sur les mêmes résultats et être sûr que les changements de performance sont dû au changement des paramètres et non à une initialisation différente.

B/ Les attributs

base_estimators

Cet attribut permet d’avoir accès au modèle de base choisi.

n_estimator

Cet attribut permet d’avoir accès à chaque modèle créé.

feature_importances

L’attribut feature_importances retourne l’importance des variables du jeu de données dans la construction des arbres de la forêt.