Quelqu'un peut-il m'aider à comprendre la formule de corrélation de Pearson? l'échantillon = la moyenne des scores produits des types de variables et .
Je comprends en quelque sorte pourquoi ils doivent normaliser et , mais comment comprendre les produits des deux scores z?
Cette formule est également appelée "coefficient de corrélation produit-moment", mais quelle est la justification de l'action du produit? Je ne sais pas si j'ai clarifié ma question, mais je veux juste me souvenir intuitivement de la formule.
Réponses:
Dans les commentaires, 15 façons de comprendre le coefficient de corrélation ont été suggérées:
Les 13 voies discutées dans l'article de Rodgers et Nicewander (The American Statistician, février 1988) sont
Une fonction des scores et des moyens bruts,
Covariance standardisée,
où est la covariance de l'échantillon et et sont les écarts-types de l'échantillon. s X s YsXOui sX sOui
Pente normalisée de la ligne de régression,
où et sont les pentes des droites de régression. b X ⋅ YbOui⋅ X bX⋅ Y
La moyenne géométrique des deux pentes de régression,
La racine carrée du rapport de deux variances (proportion de la variabilité prise en compte),
Le produit croisé moyen des variables standardisées,
Une fonction de l'angle entre les deux lignes de régression normalisées. Les deux droites de régression ( vs et vs ) sont symétriques par rapport à la diagonale. Soit l'angle entre les deux lignes soit . alorsX X Y βOui X X Oui β
Une fonction de l'angle entre les deux vecteurs variables,
Une variance redimensionnée de la différence entre les scores normalisés. Laisser être la différence entre normalisés et des variables pour chaque observation, X YzY−zX X Y
Estimé à partir de la règle du "ballon",
où est la plage verticale de l'ensemble du diagramme de dispersion et est la plage passant par le "centre de la distribution sur l' axe " (c'est-à-dire par le point de moyenne).X - Y h XH X−Y h X
En relation avec les ellipses bivariées de l'isoconcentration,
où et sont respectivement les longueurs des axes majeur et mineur. également égal à la pente de la ligne tangente d'un isocontour (en coordonnées normalisées) au point où le contour traverse l'axe vertical.d rD d r
Une fonction des statistiques de test des expériences conçues,
où est la statistique du test dans un échantillon deux échantillons indépendants pour une expérience conçue avec deux conditions de traitement (codé ) et est le nombre total combiné d'observations dans les deux groupes de traitement.t t X=0,1 n
Le rapport de deux moyens. Supposons une normalité bivariée et normalisons les variables. Sélectionnez une valeur arbitrairement grande de . alorsXc X
(La plupart de ces informations sont textuelles, avec de très légères modifications dans une partie de la notation.)
Certaines autres méthodes (peut-être originales sur ce site) sont
Via des cercles. est la pente de la droite de régression en coordonnées normalisées. Cette ligne peut être caractérisée de différentes manières, y compris géométriques, telles que la minimisation de la surface totale des cercles tracés entre la ligne et les points de données dans un nuage de points.r
En colorant des rectangles. La covariance peut être évaluée en colorant des rectangles dans un nuage de points (c'est-à-dire en additionnant des zones signées de rectangles). Lorsque le nuage de points est normalisé, la quantité nette de couleur - l'erreur totale signée - est .r
la source