À quoi fait référence la «taille du nœud» dans la forêt aléatoire?

20

Je ne comprends pas exactement ce que l'on entend par taille de nœud. Je sais ce qu'est un nœud de décision, mais pas sa taille.

Wolfsatthedoor
la source

Réponses:

24

Un arbre de décision fonctionne par partition récursive de l'ensemble d'apprentissage. Chaque nœud d'un arbre de décision est associé à un ensemble de n t points de données de l'ensemble d'apprentissage:tnt

n_t est la taille de chaque nœud

Vous pouvez trouver le paramètre nodesizedans certains packages de forêts aléatoires, par exemple R : Il s'agit de la taille minimale du nœud , dans l'exemple ci-dessus, la taille minimale du nœud est 10. Ce paramètre définit implicitement la profondeur de vos arbres.

nodesize du package de forêt aléatoire R

Taille minimale des nœuds terminaux. Si ce nombre est plus élevé, des arbres plus petits poussent (et prennent donc moins de temps). Notez que les valeurs par défaut sont différentes pour la classification (1) et la régression (5).

Dans d'autres packages, vous trouverez directement le paramètre depth, par exemple WEKA :

-depth du paquet forestier aléatoire WEKA

La profondeur maximale des arbres, 0 pour illimité. (par défaut 0)

Simone
la source
1
Que sont les «enregistrements»? Voulez-vous dire des points de données? Pourquoi chaque nœud est-il associé à un ensemble d'enregistrements? Je comprends assez bien les forêts aléatoires, mais je ne sais pas ce que signifie le jargon.
wolfsatthedoor
Oui, je voulais dire point de données. En règle générale, vous pouvez faire référence aux points de données sous forme d'enregistrements, d'instances ou d'exemples.
Simone
Existe-t-il donc une taille de nœud minimale pour éviter de sur-adapter les arbres? J'imagine que cela dépend de la taille des données de formation, alors peut-être une certaine proportion de la taille de l'ensemble de données?
Seanosapien
1
Dans les forêts aléatoires, les arbres sont entièrement développés: la taille des nœuds est de 1. Le sur-ajustement est évité de faire pousser de nombreux arbres. Dans l'arbre de décision, c'est plus délicat. Les arbres ne sont pas complètement développés et vous devez effectuer une taille pour éviter le sur-ajustement.
Simone
1
Il semble que le vannage soit une sorte de sélection de fonctionnalités pour simplifier l'arborescence et éviter le sur-ajustement. Je suppose que l'élagage d'un seul arbre est toujours bénéfique. Au lieu de cela, le vannage peut parfois diminuer la précision, mais il simplifie l'arborescence.
Simone
2

Il n'est pas clair si la taille du nœud est sur l'échantillonnage «dans le sac» ou sur l'erreur «hors du sac». S'il s'agit de l'échantillonnage «hors sac», il est légèrement plus restrictif.

Chevalier noir
la source