Pourquoi prenons-nous la moyenne des prédictions de régression Random Forest?

8

Dans tous les articles sur la forêt aléatoire (de régression) que j'ai lus, quand vient le temps de rassembler les prédictions de tous les arbres, nous prenons la valeur moyenne comme prédiction.

Ma question est pourquoi faisons-nous cela?

Existe-t-il une justification statistique pour prendre la moyenne?

EDIT: Pour clarifier la question, je sais qu'il est possible d'utiliser d'autres fonctions d'agrégation (nous utilisons le mode de classification), je suis surtout intéressé par la justification théorique du choix de la fonction moyenne.

Bar
la source
1
Peut-être pertinent: stats.stackexchange.com/questions/174390/…
Matthew Drury
! entrez la description de l'image ici Voici la référence: Sur les probabilités vs partie des étiquettes de classe sebastianraschka.com/Articles/…
PauAI

Réponses:

5

J'ai toujours pensé à la moyenne en termes de compromis biais-variance. Si je me souviens bien, Leo Breiman a fait allusion à cela dans le journal randomForest avec sa déclaration "... sont plus robustes en ce qui concerne le bruit."

L'explication est la suivante: en gros, vous prenez un tas d'arbres qui sont cultivés à pleine longueur - pas d'élagage - donc vous savez qu'ils seront chacun biaisés par eux-mêmes. Cependant, l'échantillonnage aléatoire qui induit chaque arbre dans la forêt devrait induire un sous-biais aussi souvent qu'un sur-biais. Donc, en prenant une moyenne, vous éliminez ensuite le biais de chaque arbre - l'annulation des biais +. Espérons que dans le processus, vous réduisez également la variance dans chaque arbre et que la variance globale devrait également être réduite.

Comme indiqué par les autres réponses au message, ce n'est peut-être pas la seule raison de la moyenne.

Lucas Roberts
la source
1
Accepter cela, car la réponse semble que la moyenne est choisie par "intuition" plutôt par une motivation théorique particulière, contrairement à la réponse théoriquement motivée sur les GLM: stats.stackexchange.com/q/174390/16052
Bar
1
@Bar, avec les arbres de décision, le problème est vraiment que l'optimisation globale est NP-difficile, donc une optimisation gourmande est effectuée. L'optimisation gourmande de chaque arbre ne nous renseigne pas sur la forêt. Malheureusement, les mathématiques de ce problème sont moins développées que nous ne le souhaiterions.
Lucas Roberts
5

Lorsque vous utilisez la moyenne, vous dites deux choses:

  1. Les valeurs aberrantes ne sont pas un énorme problème (sinon vous utiliseriez la médiane ou au moins filtreriez certaines valeurs aberrantes avant de prendre la moyenne)
  2. Chaque prédiction a le même poids (sinon vous tiendriez compte des poids)

Vous ne devez pas vous attendre à ce qu'il y ait d'énormes valeurs aberrantes, car vous pouvez rendre la taille de l'échantillon suffisamment grande pour qu'elles importent moins dans la moyenne et puisque vous vous attendez à un minimum de stabilité à partir des prédictions des arbres individuels.

Il n'y a aucune raison de penser que certains arbres devraient avoir un poids plus prédictif que d'autres, ni un moyen de déterminer de tels poids.

Vous ne pouvez pas vraiment utiliser le mode car les prédictions sont sur une échelle continue. Par exemple, si vous aviez les prédictions 80 80 100 101 99 98 97 102 103 104 96, le mode prédirait 80. Cela ne peut pas être ce que vous voulez. Si toutes les valeurs ont des décimales distinctes, le mode ne saurait pas décider.

Il existe d'autres moyennes que la moyenne arithmétique, comme la moyenne géométrique et la moyenne harmonique. Ils sont conçus pour abaisser la moyenne s'il y a des valeurs faibles dans la série de données. Ce n'est pas ce que vous voulez ici non plus.

David Ernst
la source
1
Si les valeurs aberrantes sont un problème, il existe des alternatives entre la médiane et la moyenne de l'échantillon, comme les moyennes winorisées ou ajustées, qui pourraient offrir une bonne protection contre les valeurs aberrantes tout en étant plus efficaces que la médiane.
kjetil b halvorsen
3

Bien sûr, vous pouvez utiliser n'importe quelle fonction d'agrégation utile dans votre situation particulière. La médiane est un bon moyen de rendre un petit échantillon robuste contre les valeurs aberrantes. Dans les forêts de régression, vous pouvez généralement influencer la taille de l'échantillon pour éviter d'avoir le problème des petites tailles d'échantillon. Ainsi, la moyenne semble raisonnable dans une très grande fraction des cas d'utilisation.

Bernhard
la source
1

Ne serait-il pas également possible de prendre la médiane, le mode ou une autre fonction d'agrégation?

La classification Random Forest ( c'est-à-dire non l'estimation des probabilités) est basée sur le mode des prédictions (vote majoritaire), alors oui, vous pouvez agréger les résultats comme vous le souhaitez.

Pyromane
la source
Merci pour la réponse, j'ai ajouté une précision à ma question. Je sais qu'il est possible d'utiliser d'autres fonctions d'agrégation, ce que je me demande, c'est s'il y a une raison théorique pour le choix de la moyenne.
Bar
1

Tout d'abord. Comme beaucoup d'autres personnes l'ont dit, vous pouvez utiliser d'autres mesures, mais la moyenne est l'option "par défaut".

Par défaut, on définirait une fonction qui fonctionne dans certaines conditions douces

Maintenant, si vous y réfléchissez, une forêt aléatoire est une collection d'arbres et chacun de ces arbres a pour objectif d'estimer votre variable de réponse numérique.

De plus, comme @David Ernst le mentionne correctement:

Il n'y a aucune raison de penser que certains arbres devraient avoir des poids plus prédictifs que d'autres, ni un moyen de déterminer ces poids.

De plus, il n'y a aucune raison de penser que ces arbres auront des écarts types différents. Encore une fois, dans des conditions douces!

Cela étant dit, la moyenne devrait fonctionner en raison de la loi faible des grands nombres

Vasilis Vasileiou
la source
-1

En ensemble. La moyenne consiste à privilégier davantage la confiance que la majorité.

Exemple vous avez 3 arbres,

2 d'entre eux votent A avec 22% de confiance et 1 vote B avec 90% de confiance.

Si nous utilisons la majorité, nous obtenons le vote A. Moyenne de 22, N, N Si nous utilisons la confiance, nous obtenons le vote B. Moyenne de 90, N, N

Il serait logique d'aller avec la confiance de 90% car c'est plus sûr que la majorité des autres avec seulement 22% de confiance.

PauAI
la source
Je ne comprends pas très bien votre point de vue. Pouvez-vous éditer pour le clarifier peut-être? Que se passerait-il s'il y avait 100 A et un seul B avec le même ensemble d'indices de confiance?
mdewey