Qu'entend-on par proximité dans des forêts aléatoires?

11

Je suis tombé sur le terme de proximité dans des forêts aléatoires. Mais je ne pouvais pas comprendre ce qu'il fait dans des forêts aléatoires. Comment cela aide-t-il à des fins de classification?

user3796494
la source

Réponses:

12

Le terme «proximité» signifie la «proximité» ou la «proximité» entre des paires de cas.

Les proximités sont calculées pour chaque paire de cas / observations / points d'échantillonnage. Si deux cas occupent le même nœud terminal à travers un arbre, leur proximité est augmentée d'un. À la fin de la course de tous les arbres, les proximités sont normalisées en divisant par le nombre d'arbres. Les proximités sont utilisées pour remplacer les données manquantes, localiser les valeurs aberrantes et produire des vues éclairantes à basse dimension des données.

Proximités

Les proximités formaient à l'origine une matrice NxN. Une fois qu'un arbre est cultivé, placez toutes les données, à la fois sur la formation et sur l'oob, dans l'arbre. Si les cas k et n sont dans le même nœud terminal, augmentez leur proximité de un. À la fin, normalisez les proximités en divisant par le nombre d'arbres.

Les utilisateurs ont noté qu'avec des ensembles de données volumineux, ils ne pouvaient pas intégrer une matrice NxN dans la mémoire rapide. Une modification a réduit la taille de mémoire requise à NxT où T est le nombre d'arbres dans la forêt. Pour accélérer la mise à l'échelle intensive en calcul et le remplacement itératif de la valeur manquante, l'utilisateur a la possibilité de ne conserver que les plus grandes proximités nrnn de chaque cas.

Lorsqu'un ensemble de test est présent, les proximités de chaque cas dans l'ensemble de test avec chaque cas dans l'ensemble d'apprentissage peuvent également être calculées. La quantité de calcul supplémentaire est modérée.

citation: https://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm

sinalpha
la source
Que signifie "nrnn"? Je lisais la page d'Adele Cutler (ou peut-être de Breiman car je ne peux pas dire qui est l'auteur de quoi ici) sur les RF, et je ne trouve pas où ils définissent nrnn. (Il peut très bien s'agir d'un terme d'algèbre linéaire avec lequel je ne suis pas familier.
Tanner Strunk
nrnn = le nombre de voisins les plus proches pour lesquels calculer les proximités. Source: math.usu.edu/adele/RandomForests/ENAR.pdf page 161
klumbard
0

Notez que les auteurs d'Eléments of Statistical Learning affirment que «les graphiques de proximité pour les forêts aléatoires semblent souvent très similaires, quelles que soient les données, ce qui met en doute leur utilité. Ils ont tendance à avoir une forme d'étoile, un bras par classe, ce qui est plus prononcée, meilleures sont les performances de classement. " (p 595)

Cependant, je pense que ces auteurs ne mentionnent pas tellement la façon dont les forêts aléatoires traitent tellement les données manquantes (même si elles mentionnent les données manquantes avec des arbres plus tôt dans le livre); peut-être que les auteurs n'ont tout simplement pas mis autant l'accent sur cet aspect des RF, ce qui est logique étant donné que le livre est énorme et contient beaucoup d'informations sur de nombreux sujets / techniques d'apprentissage automatique. Cependant, je ne pense pas que les tracés donnent des formes similaires pour tout RF et ensemble de données signifie quelque chose de négatif sur les RF en général. Par exemple, la régression linéaire a toujours la même apparence, mais il vaut la peine de savoir quels points se trouvent près de la ligne et qui semblent être aberrants du point de vue de la régression linéaire. Donc ... leur commentaire sur l'utilité des parcelles de proximité n'a pas de sens pour moi.

Tanner Strunk
la source