Pourquoi mes résultats de forêt aléatoires sont-ils si variables?

10

J'essaie de tester la capacité d'une forêt aléatoire à classer les échantillons entre 2 groupes; Il y a 54 échantillons et différents nombres de variables utilisés pour la classification.

Je me demandais pourquoi les estimations hors du sac (OOB) peuvent varier jusqu'à 5% les unes des autres même lorsque j'utilise des arbres de 50 000? Est-ce quelque chose que le bootstrapping pourrait aider?

Sethzard
la source
6
Vous avez à quelques échantillons. 50k arbres n'a aucun sens avec si peu d'échantillons. Les variations sont probablement un seul échantillon mal classé entre les analyses.
ThiS
@ThiS Je pensais que l'augmentation du nombre d'arbres réduirait la variance que j'obtiens. Existe-t-il un moyen de le réduire à zéro ou de savoir lequel est le plus précis?
Sethzard

Réponses:

12

Il existe deux sources de variance OOB. L'un est le caractère aléatoire de la procédure elle-même; cela peut être réduit en augmentant le nombre d'arbres.

L'autre source de variance est l'imperfection irréductible d'avoir des données limitées et de vivre dans un monde complexe. L'augmentation du nombre d'arbres ne peut pas résoudre ce problème.

De plus, parfois, il n'y a tout simplement pas assez de données pour résoudre le problème. Par exemple, imaginez que deux instances ont les étiquettes opposées mais des valeurs d'entité identiques. Un de ces échantillons sera toujours mal classé. (Ceci est un exemple extrême, mais illustre comment certains problèmes ne peuvent pas être résolus. Nous pouvons l'assouplir quelque peu en considérant une petite perturbation d'un vecteur; maintenant, il sera généralement classé de la même manière que son jumeau, mais pas toujours.) Pour résoudre ce problème , vous devez collecter des mesures supplémentaires pour mieux distinguer les deux points.

Cependant, l'augmentation du nombre d'arbres peut réduire la variance de l'estimation de quelque chose comme . Considérez les résultats du théorème de la limite centrale: l'augmentation de la taille de l'échantillon peut réduire la variance d'une statistique comme une moyenne, mais pas l'éliminer. Les prédictions aléatoires de la forêt sont une moyenne de toutes les prédictions des arbres, et ces prédictions sont elles-mêmes des variables aléatoires (en raison du bootstrap et du sous-ensemble aléatoire des entités; les deux se produisent indépendamment, les votes sont donc également iid). Le CLT prévoit que approche une distribution normale , où est la vraie prédiction moyenne etp(y=1|x)x¯x¯x¯N(μ,σ2n)μσ2est la variance des votes des arbres. (Les votes prennent des valeurs de 0 ou 1, donc la moyenne des votes a une variance finie.) Le fait est que doubler le nombre d'arbres réduira de moitié la variance de , mais ne la conduira pas à zéro. x¯(Sauf quand , mais nous savons que ce n'est pas le cas ici.)σ2=0

La variance irréductible ne peut pas être corrigée par bootstrap. De plus, les forêts aléatoires sont déjà amorcées; cela fait partie de la raison pour laquelle il a "aléatoire" dans son nom. (L'autre raison étant qu'un sous-ensemble aléatoire de fonctionnalités est sélectionné à chaque division.)

Sycorax dit de réintégrer Monica
la source