Dans tous les articles sur la forêt aléatoire (de régression) que j'ai lus, quand vient le temps de rassembler les prédictions de tous les arbres, nous prenons la valeur moyenne comme prédiction.
Ma question est pourquoi faisons-nous cela?
Existe-t-il une justification statistique pour prendre la moyenne?
EDIT: Pour clarifier la question, je sais qu'il est possible d'utiliser d'autres fonctions d'agrégation (nous utilisons le mode de classification), je suis surtout intéressé par la justification théorique du choix de la fonction moyenne.
Réponses:
J'ai toujours pensé à la moyenne en termes de compromis biais-variance. Si je me souviens bien, Leo Breiman a fait allusion à cela dans le journal randomForest avec sa déclaration "... sont plus robustes en ce qui concerne le bruit."
L'explication est la suivante: en gros, vous prenez un tas d'arbres qui sont cultivés à pleine longueur - pas d'élagage - donc vous savez qu'ils seront chacun biaisés par eux-mêmes. Cependant, l'échantillonnage aléatoire qui induit chaque arbre dans la forêt devrait induire un sous-biais aussi souvent qu'un sur-biais. Donc, en prenant une moyenne, vous éliminez ensuite le biais de chaque arbre - l'annulation des biais +. Espérons que dans le processus, vous réduisez également la variance dans chaque arbre et que la variance globale devrait également être réduite.
Comme indiqué par les autres réponses au message, ce n'est peut-être pas la seule raison de la moyenne.
la source
Lorsque vous utilisez la moyenne, vous dites deux choses:
Vous ne devez pas vous attendre à ce qu'il y ait d'énormes valeurs aberrantes, car vous pouvez rendre la taille de l'échantillon suffisamment grande pour qu'elles importent moins dans la moyenne et puisque vous vous attendez à un minimum de stabilité à partir des prédictions des arbres individuels.
Il n'y a aucune raison de penser que certains arbres devraient avoir un poids plus prédictif que d'autres, ni un moyen de déterminer de tels poids.
Vous ne pouvez pas vraiment utiliser le mode car les prédictions sont sur une échelle continue. Par exemple, si vous aviez les prédictions 80 80 100 101 99 98 97 102 103 104 96, le mode prédirait 80. Cela ne peut pas être ce que vous voulez. Si toutes les valeurs ont des décimales distinctes, le mode ne saurait pas décider.
Il existe d'autres moyennes que la moyenne arithmétique, comme la moyenne géométrique et la moyenne harmonique. Ils sont conçus pour abaisser la moyenne s'il y a des valeurs faibles dans la série de données. Ce n'est pas ce que vous voulez ici non plus.
la source
Bien sûr, vous pouvez utiliser n'importe quelle fonction d'agrégation utile dans votre situation particulière. La médiane est un bon moyen de rendre un petit échantillon robuste contre les valeurs aberrantes. Dans les forêts de régression, vous pouvez généralement influencer la taille de l'échantillon pour éviter d'avoir le problème des petites tailles d'échantillon. Ainsi, la moyenne semble raisonnable dans une très grande fraction des cas d'utilisation.
la source
La classification Random Forest ( c'est-à-dire non l'estimation des probabilités) est basée sur le mode des prédictions (vote majoritaire), alors oui, vous pouvez agréger les résultats comme vous le souhaitez.
la source
Tout d'abord. Comme beaucoup d'autres personnes l'ont dit, vous pouvez utiliser d'autres mesures, mais la moyenne est l'option "par défaut".
Par défaut, on définirait une fonction qui fonctionne dans certaines conditions douces
Maintenant, si vous y réfléchissez, une forêt aléatoire est une collection d'arbres et chacun de ces arbres a pour objectif d'estimer votre variable de réponse numérique.
De plus, comme @David Ernst le mentionne correctement:
De plus, il n'y a aucune raison de penser que ces arbres auront des écarts types différents. Encore une fois, dans des conditions douces!
Cela étant dit, la moyenne devrait fonctionner en raison de la loi faible des grands nombres
la source
En ensemble. La moyenne consiste à privilégier davantage la confiance que la majorité.
Exemple vous avez 3 arbres,
2 d'entre eux votent A avec 22% de confiance et 1 vote B avec 90% de confiance.
Si nous utilisons la majorité, nous obtenons le vote A. Moyenne de 22, N, N Si nous utilisons la confiance, nous obtenons le vote B. Moyenne de 90, N, N
Il serait logique d'aller avec la confiance de 90% car c'est plus sûr que la majorité des autres avec seulement 22% de confiance.
la source