La taille doit-elle être évitée pour l'ensachage (avec des arbres de décision)?

8

Je suis venu par plusieurs articles et documents affirmant que l'élagage des arbres dans un ensemble d'arbres "ensachés" n'était pas nécessaire (voir 1 ).

Cependant, est-ce nécessairement (ou du moins dans certains cas connus) dommageable d'effectuer l'élagage (par exemple, avec l'échantillon OOB) sur les arbres individuels dans un ensemble?

Merci!

Tal Galili
la source

Réponses:

6

Tal,

De manière générale, l'élagage nuira aux performances des arbres ensachés.

Tress sont des classificateurs instables; ce qui signifie que si vous perturbez un peu les données, l'arbre peut changer de manière significative. Ce sont des modèles à faible biais mais à forte variance. L'ensachage fonctionne généralement en «reproduisant» le modèle pour réduire la variance (l'ancienne astuce «augmenter la taille de votre échantillon»).

Cependant, si vous finissez par faire la moyenne de modèles très similaires, vous ne gagnez pas grand-chose. Si les arbres ne sont pas taillés, ils ont tendance à être plus différents les uns des autres que s'ils étaient taillés. Cela a pour effet de «décorréler» les arbres afin que vous établissiez la moyenne des arbres qui ne sont pas trop similaires. C'est aussi la raison pour laquelle les forêts aléatoires ajoutent le réglage supplémentaire de la sélection de prédicteurs aléatoires. Cela oblige les arbres à être très différents.

L'utilisation d'arbres non élagués augmentera le risque de surpeuplement, mais le modèle en moyenne fait plus que compenser cela (en général).

HTH,

Max

topepo
la source
Merci Max, votre réponse est à la fois utile et perspicace. Bien à vous, Tal
Tal Galili