Interprétation des diagrammes de densité conditionnelle

10

Je voudrais savoir comment interpréter correctement les graphiques de densité conditionnelle. J'en ai inséré deux ci-dessous que j'ai créé en R avec cdplot.

Par exemple, la probabilité que le résultat soit égal à 1 lorsque Var 1 est 150 est-elle d'environ 80%?

tracé de densité conditionnelle

La zone gris foncé est celle qui est la probabilité conditionnelle d' Resultêtre égal à 1, non?

tracé de densité conditionnelle

De la cdplotdocumentation:

cdplot calcule les densités conditionnelles de x étant donné les niveaux de y pondérés par la distribution marginale de y. Les densités sont dérivées cumulativement sur les niveaux de y.

Comment cette accumulation affecte-t-elle la façon dont ces parcelles sont interprétées?

nofunsally
la source

Réponses:

7

Par exemple, la probabilité que le résultat soit égal à 1 lorsque Var 1 est 150 est-elle d'environ 80%?

Non, c'est l'inverse. La probabilité que Résultat lorsque Var1 soit d'environ 80%. De même, la probabilité que Résultat lorsque Var1 soit d'environ 20%.=0=150=1=150

La zone gris foncé est celle qui est la probabilité conditionnelle que le résultat soit égal à 1, non?

La zone ombrée sombre correspond à Résultat ; la zone légèrement ombrée correspond à Résultat .=0=1

Si vous avez plus de deux niveaux dans votre facteur de résultat, ce qui sera décrit sera probablement plus évident. Nous sommes juste habitués à regarder les fonctions de densité, donc cette présentation peut être déroutante au début.

Comment cette accumulation affecte-t-elle la façon dont ces parcelles sont interprétées?

En regardant la source cdplot(), je pense que ce qui se passe ici, c'est que les proportions lissées des résultats sont pondérées par la densité de la variable explicative. Ainsi, les distributions de la variable dépendante vont être mieux représentées dans les régions de densité plus élevée de la variable explicative.

Une façon d'interpréter cela est que là où il y a des régions de la variable explicative avec peu de points, les distributions conditionnelles ne seront pas aussi bien déterminées. Lorsqu'il y a des régions de la variable explicative avec plus de points, les distributions conditionnelles seront mieux déterminées.

jvbraun
la source