Signification de l'axe des y dans le graphique de dépendance partielle de la forêt aléatoire

13

J'utilise le RandomForestpackage R et je ne sais pas comment interpréter les valeurs de l'axe Y dans leurs graphiques de dépendance partielle. Les documents d'aide indiquent que l'intrigue est une "représentation graphique de l'effet marginal d'une variable sur la probabilité de classe". Cependant, je suis toujours confus quant à ce que représente exactement l'axe des y.

  • En particulier, que signifient les valeurs négatives?
  • Que signifie avoir une influence négative sur la prévision précise de la classe?
  • Et quelle est la caractéristique la plus importante de ces chiffres, est-ce la valeur maximale, la forme de la tendance, etc.?
  • Pouvez-vous comparer les graphiques partiels avec les graphiques partiels d'autres variables?
  • Comment ces graphiques peuvent-ils se comparer aux courbes de réponse créées dans Maxent (un logiciel de modélisation de distribution)?

Quelques exemples de graphiques de dépendance partielle

jacobsap
la source

Réponses:

7

Répondre à ces deux premiers:

En particulier, que signifient les valeurs négatives? Que signifie avoir une influence négative sur la prévision précise de la classe?

Si vous regardez la définition de la façon dont le graphique partiel est calculé dans la documentation du package Random Forest , il est dit que les graphiques montrent la contribution logit relative de la variable sur la probabilité de classe du point de vue du modèle. En d'autres termes, des valeurs négatives (sur l'axe des y) signifient que la classe positive est moins probable pour cette valeur de la variable indépendante (axe des x) selon le modèle. De même, des valeurs positives signifient que la classe positive est plus probable pour cette valeur de la variable indépendante selon le modèle. Clairement, zéro n'implique aucun impact moyen sur la probabilité de classe selon le modèle.

Et quelle est la caractéristique la plus importante de ces chiffres, est-ce la valeur maximale, la forme de la tendance, etc.?

Il existe de nombreuses approches différentes pour déterminer l'importance des caractéristiques et la valeur absolue maximale n'est qu'une mesure simple. En règle générale, les gens examinent la forme des graphiques partiels pour comprendre ce que le modèle suggère concernant la relation entre les variables et les étiquettes de classe.

Pouvez-vous comparer les graphiques partiels avec les graphiques partiels d'autres variables?

La réponse à cela est moins noir et blanc. Vous pouvez certainement regarder la plage de l'axe des y pour chaque tracé; Si la dépendance partielle d'une variable est proche de zéro pour toute la plage de la variable, cela vous indique que le modèle n'a aucune relation entre la variable et l'étiquette de classe. Revenons à votre question, plus la gamme est large, plus l'influence globale est forte, donc en ce sens, ils peuvent être comparés.

Je n'ai aucune expérience avec Maxent.

Chris A.
la source
Disons que le modèle est pour la classification à 2 classes, comment déterminer quelle classe est une classe positive et laquelle est négative?
Kumar Vaibhav
C'est une bonne question, vous devrez expérimenter et voir. La documentation indique à la page 17 ici que si yc'est un facteur, cela suppose qu'il s'agit d'un problème de classification. Cependant, il ne dit pas quel facteur il associera à la classe positive ou négative. J'espère que 1 ou vrai est mappé à la classe positive et 0, -1, ou faux est mappé à la classe négative, mais je ne prendrais pas cela pour acquis dans R.
Chris A.
il y a un which.classargument partialPlotet il est par défaut au premier niveau de facteur y. Donc, si le premier niveau de yest le cas négatif, alors partialPloton prédira les cas négatifs, ce qui pourrait ne pas être ce à quoi on s'attend.
qoheleth