Dans une forêt aléatoire, un% IncMSE plus important est-il meilleur ou pire?

17

Une fois que j'ai construit un modèle de forêt aléatoire (de régression) dans R, l'appel rf$importanceme fournit deux mesures pour chaque variable prédictive, %IncMSEet IncNodePurity. L'interprétation selon laquelle les variables prédictives avec des %IncMSEvaleurs plus petites sont plus importantes que les variables prédictives avec des %IncMSEvaleurs plus grandes ?

Et pour IncNodePurity?

derNincompoop
la source

Réponses:

30

% IncMSE est la mesure la plus robuste et la plus informative. Il s'agit de l'augmentation de mse des prédictions (estimée avec le CV hors sac) à la suite de la permutation de la variable j (mélange aléatoire des valeurs).

  1. cultiver une forêt de régression. Calculez OOB-mse, nommez ce mse0.
  2. pour 1 à j var: permuter les valeurs de la colonne j, puis prédire et calculer OOB-mse (j)
  3. % IncMSE de j'th est (mse (j) -mse0) / mse0 * 100%

le plus grand nombre, le plus important

IncNodePurity se rapporte à la fonction de perte qui est choisie par les meilleures divisions. La fonction de perte est mse pour la régression et gini-impureté pour la classification. Des variables plus utiles atteignent des augmentations plus élevées de la pureté des nœuds, c'est-à-dire de trouver une division qui a une «variance» inter-nœuds élevée et une petite «variance» intra-nœuds. IncNodePurity est biaisé et ne doit être utilisé que si le temps de calcul supplémentaire du calcul de% IncMSE est inacceptable. Comme il ne faut que 5 à 25% de temps supplémentaire pour calculer le% IncMSE, cela ne se produirait presque jamais.

Une question et une réponse similaire

Soren Havelund Welling
la source