Supposons que j'ai une fonction lisse comme . J'ai un ensemble d'entraînement D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} et, bien sûr, je ne connais pas f bien que je puisse évaluer f où je veux.
Les arbres de régression sont-ils capables de trouver un modèle lisse de la fonction (par conséquent, un petit changement dans l'entrée ne devrait donner qu'un petit changement dans la sortie)?
D'après ce que j'ai lu dans la leçon 10: Arbres de régression, il me semble que les arbres de régression mettent essentiellement les valeurs de fonction dans des bacs:
Pour les arbres de régression classiques, le modèle dans chaque cellule n'est qu'une estimation constante de Y.
Comme ils écrivent "classique", je suppose qu'il existe une variante où les cellules font quelque chose de plus intéressant?
la source
Dans les arbres de régression classiques, vous avez une valeur unique dans la feuille, mais dans la feuille, vous pouvez avoir un modèle de régression linéaire, vérifiez ce ticket.
Vous pouvez également utiliser un ensemble d'arbres (Random Forest ou Gradient Boosting Machines) pour avoir une valeur de sortie continue.
la source
Si vous étendez légèrement la question pour inclure les techniques générales de renforcement du gradient (contrairement au cas particulier des arbres de régression boostés), la réponse est oui. L'amplification du gradient a été utilisée avec succès comme alternative pour la sélection des variables. Un bon exemple est le package mboost . L'essentiel est que la classe d'apprenants de base utilisée pour le renforcement se compose de modèles continus pour commencer. Ce didacticiel décrit les classes typiques des apprenants de base comme suit:
A noter qu'il mentionne notamment les ondelettes. Les arbres et les ondelettes ont été combinés avec succès auparavant en ondelettes à base d'arbres.
la source