En ce qui concerne les arbres de décision, la valeur prédite peut-elle se situer en dehors de la plage des données de formation?
Par exemple, si la plage de l'ensemble de données d'apprentissage de la variable cible est 0-100, lorsque je génère mon modèle et l'applique à autre chose, mes valeurs peuvent -5? ou 150?
Étant donné que ma compréhension de la régression de l'arbre de décision est qu'elle est toujours basée sur des règles - progression gauche / droite et qu'au bas de l'arbre dans l'ensemble d'entraînement, elle ne peut jamais voir une valeur en dehors d'une certaine plage, elle ne pourra jamais le prédire?
regression
predictive-models
random-forest
cart
user3788557
la source
la source
Réponses:
Vous avez tout à fait raison: les arbres de décision classiques ne peuvent pas prédire des valeurs en dehors de la plage historiquement observée. Ils n'extrapoleront pas.
Il en va de même pour les forêts aléatoires.
Théoriquement, vous voyez parfois des discussions sur des architectures un peu plus élaborées (botaniques?), Où les feuilles de l'arbre ne donnent pas une valeur unique , mais contiennent une régression simple , par exemple, régressant la variable dépendante sur une variable indépendante numérique particulière. Naviguer dans l'arborescence vous donnerait un ensemble de règles sur quel IV numérique pour régresser le DV dans quel cas. Dans un tel cas, cette régression de «niveau inférieur» pourrait être extrapolée pour donner des valeurs non encore observées.
Cependant, je ne pense pas que les bibliothèques d'apprentissage automatique standard offrent cette structure un peu plus complexe (j'ai récemment cherché cela dans les vues de tâches CRAN pour R), bien qu'il ne devrait vraiment y avoir rien de complexe à ce sujet. Vous pourrez peut-être implémenter votre propre arbre contenant des régressions dans les feuilles.
la source
mobForest
package a été supprimé du CRAN . Je vais jeter un oeil à l'partykit
ensemble que Achim Zeileis recommandé .Consultez également cubist dans le package caret. Il construit des régressions linéaires dans les nœuds terminaux et peut extrapoler les prévisions au-dessus et au-dessous de la plage de valeurs de réponse dans les données d'apprentissage. Les nœuds terminaux peuvent également être moyennés sur la base des voisins les plus proches fournis en tant qu'hyperparamètre, de sorte qu'il a le potentiel de fournir des prévisions de validation croisée extrêmement précises.
la source