Comment déterminer quelle variable va sur les axes X et Y dans un nuage de points?

J'essaie de faire un nuage de points pour voir la relation entre l'alphabétisation et la mortalité infantile. Comment savoir si l'alphabétisation est mon axe X et la mortalité infantile est mon axe Y, ou l'inverse? Comment puis-je déterminer ce qui se passe dans l'axe X et l'axe Y?

data-visualization scatterplot Beth
la source

Si vous étiquetez clairement les axes, vous pouvez le faire comme vous le souhaitez! (Mais il y a quelques conventions - et elles diffèrent même entre les différentes disciplines.)

whuber

Assez évident, mais un détail crucial pour certains domaines: dans plusieurs sciences de la Terre et de l'environnement, ainsi qu'en archéologie, il est courant d'utiliser la profondeur en dessous ou la hauteur au-dessus de la surface de la terre ou de la mer comme variable verticale pour la dispersion et d'autres graphiques. Cela semble juste un moyen naturel de montrer les données étant donné la façon dont les données sont produites, en utilisant des ballons atmosphériques, des alésages, des carottes, des fouilles ou des fouilles.

Nick Cox

Réponses:

Si vous avez une variable que vous voyez comme "explicative" et l'autre comme la chose expliquée, alors une convention (très courante) est de mettre la variable explicative sur l'axe des x et la chose étant expliquée par elle sur l'y- axe.

Ainsi, par exemple, vous pouvez considérer la relation entre l'alphabétisation et la mortalité comme potentiellement causale (et donc clairement explicative) dans la mesure où une plus grande alphabétisation peut entraîner une baisse de la mortalité.

Dans ce cas, il serait courant de mettre la mortalité sur l'axe des y et l'alphabétisation sur l'axe des x.

Mais il est également possible de les concevoir dans l'autre sens (une mortalité infantile élevée pourrait bien affecter les taux d'alphabétisation), sans que ni l'une ni l'autre n'expliquent l'autre.

Dans certains cas, si une variable est «fixe» et l'autre «aléatoire», la convention la plus courante est que la variable aléatoire a tendance à aller sur l'axe des y du graphique.

Dans certaines régions, les conventions peuvent avoir tendance à être inversées; c'est tout simplement le plus répandu.

Glen_b -Reinstate Monica
la source

Les règles de base que j'enseigne aux étudiants: si une variable était sous contrôle expérimental (un bon exemple du "fixe" de Glen_b), mettez-la sur l'axe des x. Si les deux variables sont juste observées, mais que vous soupçonnez une relation occasionnelle entre elles, mettez "la cause" sur l'axe des x. Si vous souhaitez faire des prédictions d'une variable en fonction de l'autre, placez celle que vous prédisez sur l'axe y et ce sur quoi vous la basez sur l'axe x. Peu importe ce que vous faites, étiquetez clairement les axes.

Silverfish

Et il y a quelque chose que j'utilise moi-même, mais je n'ai jamais pu vraiment le maîtriser, alors je ne l'ai pas enseigné à mes élèves. Nous avons souvent deux variables liées, par exemple la taille et la taille des personnes, qui dépendent toutes deux d'un autre groupe de variables (âge, génétique, nutrition) plutôt que l'une étant directement responsable de l'autre. Je parie que si nous faisions un sondage de paille, la majorité des analystes mettraient "hauteur" sur l'axe des x et "handpan" sur l'axe des y. Il semble courant de mettre la variable "la plus fondamentale" sur l'axe des x dans ces cas, mais je serais bien en peine de définir une règle ferme pour cela.

Silverfish

@Beth, si ces réponses vous ont aidé, envisagez de les voter en cliquant sur la distribution normale orientée vers le haut sur leur gauche. Si 1 ou les deux ont résolu votre problème, veuillez envisager de l'accepter en cliquant sur la coche sous le total des votes.

gung - Rétablir Monica

+1 pour clarifier la flexibilité.

The Nate

@Silverfish Mieux vaut tard que jamais, mais "casual" est une faute de frappe pour "causal" dans votre premier commentaire. J'ajouterai un métacomment que j'ai vu cette faute de frappe des centaines de fois: certains ont peut-être causé une sorte de correction automatique et d'autres ont causé l'écrivain trop décontracté pour vérifier ce qu'ils disent. Dans votre cas, je blâme l'ancien.

Nick Cox

Tout diagramme de dispersion xy n'est pertinent que pour l'utilisateur final (à peu près ce que dit Whuber ). En général, l'axe des x est la variable (cause) et l'axe des y est la réponse (effet). Dans votre cas, je dirais que l'alphabétisation est une variable qui affecte la mortalité infantile, je mettrais donc l'alphabétisation sur le X et la mortalité sur le Y.

wwwslinger
la source

La variable indépendante va sur l'axe x (la chose que vous changez) La variable dépendante va sur l'axe y (la chose que vous mesurez)

user99620
la source

Bienvenue sur le site, @ user99620. Pouvez-vous développer davantage sur ce sujet? À l'heure actuelle, il s'agit plus d'un commentaire que d'une réponse, selon nos normes, et je ne suis pas sûr qu'il ajoute quoi que ce soit compte tenu de ce qui existe déjà sur ce fil.

gung - Réintègre Monica