Quelqu'un peut-il expliquer la différence entre RandomForestClassifier et ExtraTreesClassifier dans scikit learn. J'ai passé un bon moment à lire l'article:
P. Geurts, D. Ernst., Et L. Wehenkel, «Arbres extrêmement aléatoires», Machine Learning, 63 (1), 3-42, 2006
Il semble que ce soit la différence pour ET:
1) Lors du choix des variables lors d'un fractionnement, les échantillons sont tirés de l'ensemble d'apprentissage entier au lieu d'un échantillon bootstrap de l'ensemble d'apprentissage.
2) Les divisions sont choisies complètement au hasard dans la plage de valeurs de l'échantillon à chaque division.
Le résultat de ces deux choses est beaucoup plus de «feuilles».
scikit-learn
random-forest
Denson
la source
la source
Réponses:
Oui, les deux conclusions sont correctes, bien que l'implémentation Random Forest dans scikit-learn permette d'activer ou de désactiver le rééchantillonnage bootstrap.
En pratique, les RF sont souvent plus compacts que les ET. Les ET sont généralement moins chers à former d'un point de vue informatique, mais peuvent devenir beaucoup plus gros. Les ET peuvent parfois mieux se généraliser que les RF, mais il est difficile de deviner quand c'est le cas sans essayer les deux d'abord (et le réglage
n_estimators
,max_features
etmin_samples_split
par une recherche de grille validée par recoupement).la source
Le classificateur ExtraTrees teste toujours les fractionnements aléatoires sur une fraction d'entités (contrairement à RandomForest, qui teste tous les fractionnements possibles sur une fraction d'entités)
la source
La principale différence entre les forêts aléatoires et les arbres supplémentaires (généralement appelés forêts aléatoires extrêmes) réside dans le fait qu'au lieu de calculer la combinaison caractéristique / fractionnement localement optimale (pour la forêt aléatoire), pour chaque caractéristique considérée, une valeur aléatoire est sélectionnée pour la scission (pour les arbres supplémentaires). Voici une bonne ressource pour en savoir plus sur leur différence plus en détail Forêt aléatoire vs arbre supplémentaire.
la source