Les arbres CART capturent-ils les interactions entre les prédicteurs?

9

Cet article affirme que dans CART, car une division binaire est effectuée sur une seule covariable à chaque étape, toutes les divisions sont orthogonales et donc les interactions entre les covariables ne sont pas prises en compte.

Cependant, de nombreuses références très sérieuses affirment, au contraire, que la structure hiérarchique d'un arbre garantit que les interactions entre les prédicteurs sont automatiquement modélisées (par exemple, cet article , et bien sûr le Hastie).

Qui a raison? Les arbres cultivés par CART capturent-ils les interactions entre les variables d'entrée?

machine-learning classification data-mining cart Antoine
la source

La faille de l'argument est que les scissions sont faites sur des sous - ensembles de covariables définies par des scissions faites précédemment.

@mbq donc les nouvelles divisions sont conditionnelles par rapport aux divisions précédentes ... Je vois ... Je suppose que j'avais du mal à comprendre que "conditionné par une précédente division effectuée sur un prédicteur donné" était équivalent à "interagir avec ce prédicteur" "...

Antoine

12

CART peut capturer les effets d'interaction. Un effet d'interaction entre et se produit lorsque l'effet de la variable explicative sur la variable de réponse dépend du niveau de . Cela se produit dans l'exemple suivant: $X_1$ $X_2$ $X_1$ $Y$ $X_2$

entrez la description de l'image ici

L'effet de mauvaises conditions économiques (appelez cela ) dépend du type de bâtiment acheté ( ). Lors d'un investissement dans un immeuble de bureaux, les mauvaises conditions économiques diminuent la valeur prévue de l'investissement de 140 000 dollars. Mais en investissant dans un immeuble à appartements, la valeur prévue de l'investissement diminue de 20 000 dollars. L'effet de mauvaises conditions économiques sur la valeur prévue de votre investissement dépend du type de propriété achetée. Il s'agit d'un effet d'interaction. $X_1$ $X_2$

TrynnaDoStat
la source

2

Réponse courte

Les CART ont besoin d'aide pour capturer les interactions.

Longue réponse

Prenez l'algorithme gourmand exact (Chen et Guestrin, 2016):

La moyenne sur la feuille sera une attente conditionnelle, mais chaque division sur le chemin de la feuille est indépendante de l'autre. Si la fonctionnalité A n'a pas d'importance en elle-même mais qu'elle importe en interaction avec la fonctionnalité B, l'algorithme ne se divisera pas sur la fonctionnalité A. Sans cette division, l'algorithme ne peut pas prévoir la division sur la fonctionnalité B, nécessaire pour générer l'interaction.

Les arbres peuvent choisir des interactions dans les scénarios les plus simples. Si vous avez un jeu de données avec deux entités et la cible , l'algorithme n'a rien à partager, sauf et , par conséquent, vous obtiendrez quatre feuilles avec estimé correctement. $x_1, x_2$ $y = XOR(x_1, x_2)$ $x_1$ $x_2$ $XOR$

Avec de nombreuses fonctionnalités, la régularisation et la limite stricte du nombre de divisions, le même algorithme peut omettre les interactions.

Solutions de contournement

Interactions explicites en tant que nouvelles fonctionnalités

Un exemple de Zhang («Winning Data Science Competitions», 2015):

Algorithmes d'arbre non gourmands

Dans l'autre question, Simone suggère des algorithmes basés sur l'anticipation et des arbres de décision obliques .

Une approche d'apprentissage différente

Certaines méthodes d'apprentissage gèrent mieux les interactions.

Voici un tableau de The Elements of Statistical Learning (ligne "Capacité à extraire des combinaisons linéaires de caractéristiques"):

Anton Tarasenko
la source