Intuition derrière les corrélations «partielles» et «marginales»

12

Quelqu'un a-t-il une idée de la raison pour laquelle la corrélation conditionnelle entre 2 variables est appelée corrélation "partielle" et la corrélation simple entre elles (donc, lorsqu'elle n'est conditionnée à aucune autre variable) est appelée corrélation "marginale"? Quelle est l'intuition derrière les mots "partiel" et "marginal"? Que font-ils des "pièces" ou des "marges"?

Il serait bon d'apprendre la réponse afin de mieux comprendre ces concepts.

user35159
la source
Connexes: stats.stackexchange.com/questions/56969/…
kjetil b halvorsen

Réponses:

11

Le terme "marginal" est très ancien. Si vous remontez assez loin dans l'histoire, il n'y avait pas de revues scientifiques (évidemment elles ont commencé vers 1665 ). Au lieu de cela, les résultats intermédiaires ont été communiqués par lettres manuscrites et les résultats finaux ont été écrits dans des livres. Il n'y avait pas grand-chose de graphique de données avant Playfair , mais les livres pouvaient souvent avoir des tableaux avec des nombres dans des conditions différentes. Considérez ce tableau:
Ces valeurs sont toutesconditionnelles; c'est-à-dire qu'ils donnent un nombre pour une combinaison spécifique de conditions. Cependant, les lecteurs voulaient parfois savoir à quoi ressemblait une condition particulière sans tenir compte de l'autre variable. ImaginezxI,Aest le nombre de fois où quelque chose s'est produit lorsque la première variable étaitI

UNEBCjeXje,UNEXje,BXje,CXje,jejeXjeje,UNEXjeje,BXjeje,CXjeje,jejejeXjejeje,UNEXjejeje,BXjejeje,CXjejeje,jeVXjeV,UNEXjeV,BXjeV,CXjeV,
Xje,UNEjeet la seconde variable est . Ensuite, quelqu'un pourrait vouloir savoir, à quelle fréquence cela s'est-il produit lorsque la première variable était moi, quelle que soit la deuxième variable? C'est facile à comprendre, il vous suffit de résumer les x dans la première ligne et d'ignorer les colonnes. Les gens avaient l'habitude de faire ce genre de choses couramment, et ils écrivaient (naturellement) les nombres dans les marges du livre à côté de la table. Alors que les numéros d'origine sont conditionnels, il n'y avait pas de nom pour ces autres sortes de numéros; ils sont devenus connus comme « marginaux ». UNEjeX

Qu'est-ce que ces chiffres ont à voir avec les corrélations? Eh bien, ce n'est pas une connexion directe, mais une fois que vous avez l'idée de «ne pas tenir compte des autres variables», et que vous avez un nom pour cela («marginal»), lorsqu'un nouveau contexte apparaît qui est analogue (c.-à-d., Corrélations) , le nom et l'idée sont simplement appliqués.


Je ne connais pas l'étymologie des corrélations partielles, mais je peux vous donner l'intuition. C'est assez simple, vraiment: vous avez affaire à la corrélation entre une partie d'une variable et une partie d'une autre. Considérez cette figure:

entrez la description de l'image ici

On peut imaginer le cercle gauche est une variable , le cercle droit est une variable Y , et le cercle supérieur est une variable Z . La corrélation entre deux variables est liée au degré de chevauchement des cercles (en fait, nous pouvons imaginer que l'aire des cercles représente la variabilité de chaque variable et que le pourcentage de l'aire est r 2 ). Maintenant , il est clair qu'il existe une certaine corrélation entre X et Y , mais il y a aussi une certaine corrélation entre X et Z , et entre Y et Z . Et si vous vouliez savoir quelle était la corrélation entre ces parties deXOuiZr2XOuiXZOuiZ et Y qui n'étaient pas liés à ZXOuiZ ? Ce serait lacorrélation partielle. Il est lié au chevauchement entre les deuxpartiesdes cercles qui n'incluent pas les éclats supérieurs qui coupent le cercle supérieur.

J'aime cette page Web pour fournir une discussion facile à comprendre sur les corrélations partielles et les sujets connexes. Seule la première section concerne les corrélations partielles en soi, mais je recommande fortement de lire la page entière (même si elle est plutôt longue). Bien que n'étant pas directement liés, la discussion à ce fil: Où est la variance partagée entre tous les IV dans une équation de régression multiple linéaire? , peut également être utile.

gung - Réintégrer Monica
la source
1
ρ(X,Oui)=ρ(Oui,X)ρXOui|Z=ρOuiX|ZρOuiX|Z=UNEreune(1)UNEreune(X-(2+center))ρXOui|ZρOuiX|ZXOuiXOui
1
Cela devrait probablement être une nouvelle question, @KiranK. C'est une bonne question et nous ne voulons pas qu'elle soit enterrée dans des commentaires où les gens ne la trouveront jamais.
gung - Reinstate Monica
Bonne idée, j'ai republié comme une question ici: stats.stackexchange.com/questions/195410/…
Kiran K.
0

ρXOuiX,Oui

ρXOuiZX,OuiZ

ρXOuiZ: =ρXOui-ρXZρOuiZ1-ρXZ21-ρOuiZ2

Pour illustrer les propriétés issues de cette définition, nous pouvons considérer deux cas limites:

  • XOuiZ

    ρXOuiZ=ρXOui

  • OuiZρXOui

ρXOuiZ=0

Sebapi
la source