Lors de l'apprentissage de Gradient Boosting, je n'ai jamais entendu parler de contraintes concernant les propriétés d'un "classificateur faible" que la méthode utilise pour construire et modéliser un modèle. Cependant, je ne pouvais pas imaginer une application de Go utilisant une régression linéaire, et en fait, après avoir effectué certains tests, cela ne fonctionne pas. Je testais l'approche la plus standard avec un gradient de somme des résidus au carré et en additionnant les modèles ultérieurs.
Le problème évident est que les résidus du premier modèle sont remplis de manière à ce qu'il n'y ait plus de ligne de régression à ajuster. Mon autre observation est qu’une somme de modèles de régression linéaire ultérieurs peut également être représentée sous la forme d’un modèle de régression unique (en ajoutant tous les interceptions et les coefficients correspondants). Je ne peux donc pas imaginer comment cela pourrait améliorer le modèle. La dernière observation est qu'une régression linéaire (l'approche la plus typique) utilise la somme des résidus au carré en tant que fonction de perte - la même que celle utilisée par GB.
J'ai également envisagé de réduire le taux d'apprentissage ou de n'utiliser qu'un sous-ensemble de prédicteurs pour chaque itération, mais cela pourrait toujours se résumer à une représentation modèle unique, donc je suppose que cela n'apporterait aucune amélioration.
Qu'est-ce que j'oublie ici? La régression linéaire est-elle en quelque sorte inappropriée avec Gradient Boosting? Est-ce parce que la régression linéaire utilise la somme des résidus au carré comme fonction de perte? Existe-t-il des contraintes particulières sur les prédicteurs faibles afin qu’ils puissent être appliqués au renforcement du gradient?
Réponses:
Je ne pense pas que vous manque vraiment quelque chose!
Il me semble que vous en êtes arrivé là et que vous avez donné un bref aperçu de la preuve que la régression linéaire ne fait que battre les régressions linéaires supérieures dans ce contexte.
Pour être pédant, les deux méthodes tentent de résoudre le problème d'optimisation suivant
La régression linéaire observe simplement que vous pouvez le résoudre directement, en trouvant la solution à l'équation linéaire
Le boosting, que votre classificateur faible soit une régression à une ou plusieurs variables, vous donne une séquence de vecteurs de coefficientsβ1,β2,…
Chacune de ces étapes est choisie pour réduire davantage la somme des erreurs au carré. Mais nous aurions pu trouver la somme minimale possible d'erreurs au carré dans cette forme fonctionnelle en effectuant simplement une régression linéaire complète.
Une possible défense de relance dans cette situation pourrait être la régularisation implicite qu'elle fournit. Peut-être (je n'ai pas joué à cela), vous pouvez utiliser la fonctionnalité d'arrêt précoce d'un booster de gradient, avec une validation croisée, pour vous arrêter avant la régression linéaire complète. Cela fournirait une régularisation à votre régression, et éventuellement une aide à la suralimentation. Ceci n’est pas particulièrement pratique, car on dispose d’options très efficaces et bien comprises comme la régression de crête et le filet élastique dans ce cadre.
Le boosting brille quand il n’ya pas de forme fonctionnelle laconique autour. En renforçant les arbres de décision, la forme fonctionnelle du régresseur / classificateur évolue lentement pour s’ajuster aux données, ce qui aboutit souvent à des formes complexes que l’on n’aurait pas pu imaginer à la main. Quand une forme fonctionnelle simple est désirée, le renforcement ne va pas vous aider à la trouver (ou du moins, c'est probablement un moyen plutôt inefficace de la trouver).
la source
La matrice de projection des moindres carrés est donnée par
Supposons que vous tenez une régression et que vous calculiez ensuite vos résidus
A reason for this is that by construction the residual vector e from the initial regression is orthogonal to the X Space i. e.y^ is a orthogonal projection from y onto the X space (you'll find nice pictures visualizing this in the literature).
This means the simple approach of fitting a regression and then fitting a new regression on the residuals from the first regression will not result in anything senseful because X is entirely uncorrelated with e.
I write this because you said there is not really a new line to fit which corresponds to the derivations above.
la source