Cet article affirme que dans CART, car une division binaire est effectuée sur une seule covariable à chaque étape, toutes les divisions sont orthogonales et donc les interactions entre les covariables ne sont pas prises en compte.
Cependant, de nombreuses références très sérieuses affirment, au contraire, que la structure hiérarchique d'un arbre garantit que les interactions entre les prédicteurs sont automatiquement modélisées (par exemple, cet article , et bien sûr le Hastie).
Qui a raison? Les arbres cultivés par CART capturent-ils les interactions entre les variables d'entrée?
Réponses:
CART peut capturer les effets d'interaction. Un effet d'interaction entre et se produit lorsque l'effet de la variable explicative sur la variable de réponse dépend du niveau de . Cela se produit dans l'exemple suivant:X 2 X 1 Y X 2X1 X2 X1 Oui X2
L'effet de mauvaises conditions économiques (appelez cela ) dépend du type de bâtiment acheté ( ). Lors d'un investissement dans un immeuble de bureaux, les mauvaises conditions économiques diminuent la valeur prévue de l'investissement de 140 000 dollars. Mais en investissant dans un immeuble à appartements, la valeur prévue de l'investissement diminue de 20 000 dollars. L'effet de mauvaises conditions économiques sur la valeur prévue de votre investissement dépend du type de propriété achetée. Il s'agit d'un effet d'interaction.X 2X1 X2
la source
Réponse courte
Les CART ont besoin d'aide pour capturer les interactions.
Longue réponse
Prenez l'algorithme gourmand exact (Chen et Guestrin, 2016):
La moyenne sur la feuille sera une attente conditionnelle, mais chaque division sur le chemin de la feuille est indépendante de l'autre. Si la fonctionnalité A n'a pas d'importance en elle-même mais qu'elle importe en interaction avec la fonctionnalité B, l'algorithme ne se divisera pas sur la fonctionnalité A. Sans cette division, l'algorithme ne peut pas prévoir la division sur la fonctionnalité B, nécessaire pour générer l'interaction.
Les arbres peuvent choisir des interactions dans les scénarios les plus simples. Si vous avez un jeu de données avec deux entités et la cible , l'algorithme n'a rien à partager, sauf et , par conséquent, vous obtiendrez quatre feuilles avec estimé correctement.x1,x2 y=XOR(x1,x2) x1 x2 XOR
Avec de nombreuses fonctionnalités, la régularisation et la limite stricte du nombre de divisions, le même algorithme peut omettre les interactions.
Solutions de contournement
Interactions explicites en tant que nouvelles fonctionnalités
Un exemple de Zhang («Winning Data Science Competitions», 2015):
Algorithmes d'arbre non gourmands
Dans l'autre question, Simone suggère des algorithmes basés sur l'anticipation et des arbres de décision obliques .
Une approche d'apprentissage différente
Certaines méthodes d'apprentissage gèrent mieux les interactions.
Voici un tableau de The Elements of Statistical Learning (ligne "Capacité à extraire des combinaisons linéaires de caractéristiques"):
la source