% IncMSE est la mesure la plus robuste et la plus informative. Il s'agit de l'augmentation de mse des prédictions (estimée avec le CV hors sac) à la suite de la permutation de la variable j (mélange aléatoire des valeurs).
- cultiver une forêt de régression. Calculez OOB-mse, nommez ce mse0.
- pour 1 à j var: permuter les valeurs de la colonne j, puis prédire et calculer OOB-mse (j)
- % IncMSE de j'th est (mse (j) -mse0) / mse0 * 100%
le plus grand nombre, le plus important
IncNodePurity se rapporte à la fonction de perte qui est choisie par les meilleures divisions. La fonction de perte est mse pour la régression et gini-impureté pour la classification. Des variables plus utiles atteignent des augmentations plus élevées de la pureté des nœuds, c'est-à-dire de trouver une division qui a une «variance» inter-nœuds élevée et une petite «variance» intra-nœuds. IncNodePurity est biaisé et ne doit être utilisé que si le temps de calcul supplémentaire du calcul de% IncMSE est inacceptable. Comme il ne faut que 5 à 25% de temps supplémentaire pour calculer le% IncMSE, cela ne se produirait presque jamais.
Une question et une réponse similaire
Soren Havelund Welling
la source