La forêt aléatoire a-t-elle besoin de variables d'entrée pour être mise à l'échelle ou centrée?

16

Mes variables d'entrée ont des dimensions différentes. Certaines variables sont décimales tandis que d'autres sont des centaines. Est-il essentiel de centrer (soustraire la moyenne) ou de mettre à l'échelle (diviser par l'écart-type) ces variables d'entrée afin de rendre les données sans dimension lors de l'utilisation d'une forêt aléatoire?

YQ.Wang
la source

Réponses:

29

Non.

Les forêts aléatoires sont basées sur des algorithmes de partitionnement d'arbres.

En tant que tel, il n'y a pas d'analogue à un coefficient obtenu dans les stratégies de régression générales, qui dépendraient des unités des variables indépendantes. Au lieu de cela, on obtient une collection de règles de partition, essentiellement une décision étant donnée un seuil, et cela ne devrait pas changer avec la mise à l'échelle. En d'autres termes, les arbres ne voient que les rangs dans les entités.

Fondamentalement, toute transformation monotone de vos données ne devrait pas du tout changer la forêt (dans les implémentations les plus courantes).

De plus, les arbres de décision sont généralement robustes aux instabilités numériques qui nuisent parfois à la convergence et à la précision dans d'autres algorithmes.

Pyromane
la source
0

Dans l'ensemble, je suis d'accord avec Firebug, mais il pourrait être utile de normaliser vos variables si vous êtes intéressé par les scores d'importance des prédicteurs. Les RF auront tendance à favoriser des prédicteurs continus très variables car il y a plus d'opportunités de partitionner les données. Cependant, une meilleure façon de résoudre ce problème consiste à utiliser des approches particulières (c'est-à-dire l'échantillonnage sans remplacement à l'aide de forêts conditionnelles) qui sont plus robustes à ce biais. Voir https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-8-25

JWB1987
la source
1
Bienvenue sur le site. Nous essayons de construire un référentiel permanent d'informations statistiques de haute qualité sous forme de questions et réponses. Ainsi, nous nous méfions des réponses de lien uniquement, en raison de linkrot. Pouvez-vous publier une citation complète et un résumé des informations sur le lien, au cas où elles disparaissent?
gung - Rétablir Monica