Les arbres de régression peuvent-ils prédire en continu?

11

Supposons que j'ai une fonction lisse comme . J'ai un ensemble d'entraînement D \ subsetneq \ {((x, y), f (x, y)) | (x, y) \ in \ mathbb {R} ^ 2 \} et, bien sûr, je ne connais pas f bien que je puisse évaluer f où je veux.f(x,y)=x2+y2D{((x,y),f(x,y))|(x,y)R2}ff

Les arbres de régression sont-ils capables de trouver un modèle lisse de la fonction (par conséquent, un petit changement dans l'entrée ne devrait donner qu'un petit changement dans la sortie)?

D'après ce que j'ai lu dans la leçon 10: Arbres de régression, il me semble que les arbres de régression mettent essentiellement les valeurs de fonction dans des bacs:

Pour les arbres de régression classiques, le modèle dans chaque cellule n'est qu'une estimation constante de Y.

Comme ils écrivent "classique", je suppose qu'il existe une variante où les cellules font quelque chose de plus intéressant?

Martin Thoma
la source

Réponses:

2

Les arbres de régression, en particulier l'augmentation du gradient (essentiellement de nombreux arbres), ont tendance à très bien fonctionner sur les prédictions continues, surpassant souvent les modèles qui sont vraiment continus comme la régression linéaire lorsque. Cela est particulièrement vrai lorsqu'il existe des interactions variables et lorsque vous disposez d'un ensemble de données suffisamment volumineux (plus de 10 000 enregistrements) pour que le sur-ajustement soit moins probable. Si votre objectif principal est simplement la puissance prédictive, le fait que le modèle soit 100% continu ou pseudo continu ne devrait pas être pertinent. Si rendre vos arbres de régression plus continus améliore la puissance prédictive de l'échantillon, vous pouvez simplement augmenter la profondeur des arbres ou ajouter plus d'arbres.

Ryan Zotti
la source
1
Je suis d'accord. Mes arbres boostés surpassent presque toujours les GLM très minutieusement conçus et optimisés. Bien sûr, vous perdez l'interprétabilité lorsque vous gagnez en puissance prédictive.
prooffreader
0

Dans les arbres de régression classiques, vous avez une valeur unique dans la feuille, mais dans la feuille, vous pouvez avoir un modèle de régression linéaire, vérifiez ce ticket.

Vous pouvez également utiliser un ensemble d'arbres (Random Forest ou Gradient Boosting Machines) pour avoir une valeur de sortie continue.

pplonski
la source
0

Si vous étendez légèrement la question pour inclure les techniques générales de renforcement du gradient (contrairement au cas particulier des arbres de régression boostés), la réponse est oui. L'amplification du gradient a été utilisée avec succès comme alternative pour la sélection des variables. Un bon exemple est le package mboost . L'essentiel est que la classe d'apprenants de base utilisée pour le renforcement se compose de modèles continus pour commencer. Ce didacticiel décrit les classes typiques des apprenants de base comme suit:

Les modèles de base-apprenant couramment utilisés peuvent être classés en trois catégories distinctes: modèles linéaires, modèles lisses et arbres de décision. Il existe également un certain nombre d'autres modèles, tels que les champs aléatoires markoviens (Dietterich et al., 2004) ou les ondelettes (Viola et Jones, 2001), mais leur application se pose pour des tâches pratiques relativement spécifiques.

A noter qu'il mentionne notamment les ondelettes. Les arbres et les ondelettes ont été combinés avec succès auparavant en ondelettes à base d'arbres.

user3605620
la source
Quels sont les apprenants de base continue dans le renforcement des gradients? Si la réponse est des arbres de décision, pourriez-vous expliquer comment ils sont continus?
Martin Thoma
J'ai mis à jour ma réponse. La clé est d'utiliser des prédicteurs en forme d'arbre continus.
user3605620