Valeur négative aléatoire variable Forêts

10

Je me demande si c'est une bonne idée de supprimer ces variables avec une valeur d'importance de variable négative ("% IncMSE") dans un contexte de régression. Et si cela me donne une meilleure prédiction? Qu'est-ce que tu penses?

Giuseppe
la source

Réponses:

5

L'importance variable dans la forêt aléatoire est calculée comme suit:

  1. Initialement, le MSE du modèle est calculé avec les variables d'origine
  2. Ensuite, les valeurs d'une seule colonne sont permutées et le MSE est à nouveau calculé. Par exemple, si une colonne (Col1) prend les valeurs 1,2,3,4, et une permutation aléatoire des valeurs donne 4,3,1,2. Il en résulte un MSE1. Une augmentation du MSE, c'est-à-dire MSE1 - MSE, signifierait alors l'importance de la variable.

  3. Nous nous attendons à ce que la différence soit positive, mais dans le cas d'un nombre négatif, cela signifie que la permutation aléatoire a mieux fonctionné. On peut en déduire que la variable n'a pas de rôle dans la prédiction, c'est-à-dire qu'elle n'est pas importante.

J'espère que cela t'aides!

Veuillez vous référer au lien suivant pour une explication détaillée!

/programming/27918320/what-does-negative-incmse-in-randomforest-package-mean

Amol Modi
la source
3

Cela peut être juste une fluctuation aléatoire (par exemple si vous avez un petit ntree).

Sinon, cela peut montrer que vous avez un certain nombre de paradoxes dans vos données, c'est-à-dire des paires d'objets avec des prédicteurs presque identiques et des résultats très différents. Dans ce cas, je vérifierais deux fois si le modèle a du sens et je commencerais à réfléchir à la manière d'obtenir plus d'attributs pour les résoudre.


la source
2
Pourriez-vous élaborer un peu plus sur les "paradoxes des données"? Je n'ai pas tout à fait suivi et j'aimerais comprendre ce que vous expliquez.
JEquihua