Random Forest ne peut pas suréquiper?

10

J'ai lu de la littérature que les forêts aléatoires ne peuvent pas saturer. Bien que cela semble génial, cela semble trop beau pour être vrai. Est-il possible pour les RF de sur-équiper?

screechOwl
la source
5
Si cela peut convenir, il peut s'adapter. En termes de RF, pensez à ce qui se passe si votre forêt ne contient pas suffisamment d'arbres (disons que votre forêt est un seul arbre pour rendre l'effet évident). Il y a plus de problèmes que celui-ci, mais c'est le plus évident.
Marc Claesen
Je viens de répondre à un autre fil sur RF qu'il pourrait facilement sur-adapter si le nombre de prédicteurs est important.
horaceT

Réponses:

7

La forêt aléatoire peut être surchargée. Je suis sûr de cela. Ce que l'on veut généralement dire, c'est que le modèle ne s'adapterait pas si vous utilisez plus d'arbres.

Essayez par exemple d'estimer le modèle avec une forêt aléatoire. Vous obtiendrez une erreur d'entraînement presque nulle mais une mauvaise erreur de prédictiony=log(X)+ϵ

Donbeo
la source
Random Forest réduit principalement la variance, comment peut-elle surajouter? @Donbeo pourrait-il être peut-être parce que les modèles d'arbre de décision ne fonctionnent pas bien sur l'extrapolation. Disons que, pour une variable prédictive anormale, DT pourrait donner une mauvaise prédiction.
Itachi
Une indication claire du sur-ajustement est que la variance résiduelle est trop réduite . Qu'essayez-vous donc d'impliquer avec votre première remarque?
whuber
Dans le compromis biais-variance, lorsque nous essayons de réduire le biais, nous compensons la variance. Tels que, si x = 80 donne y = 100, mais x = 81 donne y = -100. Ce serait exagéré . N'est pas Ovefitting similaire à pour avoir une variance élevée. @whuber, j'ai supposé que le suraménagement n'est dû qu'à une variance élevée. Je ne comprends pas comment la réduction de la variance résiduelle entraîne un sur-ajustement. Pouvez-vous s'il vous plaît partager du papier pour que je puisse continuer à lire.
Itachi
2
Xje=1,2,,dixyjey=β0+β1X+β2X2++βkXkk=0,1,,9
@whuber Je pense que vous manquez le point sur ce qu'est la "réduction de variance". La forêt aléatoire (et l'ensachage en général) ne réduisent pas la variance des résidus, mais la variance de vos prédictions. Donc, dans votre exemple, chaque étape dont vous parlez augmente l'écart :)
Davide ND