Ceci est un peu une vérification de l'intestin, s'il vous plaît aidez-moi à voir si je comprends mal ce concept et de quelle manière.
J'ai une compréhension fonctionnelle de la corrélation, mais je me sens un peu difficile à expliquer en toute confiance les principes derrière cette compréhension fonctionnelle.
Si je comprends bien, la corrélation statistique (par opposition à l'utilisation plus générale du terme) est un moyen de comprendre deux variables continues et la manière dont elles ont tendance à augmenter ou à diminuer de manière similaire.
La raison pour laquelle vous ne pouvez pas exécuter de corrélations sur, disons, une variable continue et une variable catégorielle est parce qu'il n'est pas possible de calculer la covariance entre les deux, car la variable catégorielle par définition ne peut pas produire une moyenne, et ne peut donc même pas entrer dans la première étapes de l'analyse statistique.
Est-ce correct?
Réponses:
La corrélation est la covariance standardisée , c'est-à-dire la covariance de et divisée par l'écart type de et . Permettez-moi d'illustrer cela.X y X y
En gros, les statistiques peuvent être résumées en ajustant les modèles aux données et en évaluant dans quelle mesure le modèle décrit ces points de données ( résultat = modèle + erreur ). Une façon de le faire est de calculer les sommes des déviations ou des résidus (res) à partir du modèle:
De nombreux calculs statistiques sont basés sur cela, incl. le coefficient de corrélation (voir ci-dessous).
Voici un exemple de jeu de données créé en
R
(les résidus sont indiqués sous forme de lignes rouges et leurs valeurs ajoutées à côté d'eux):En examinant chaque point de données individuellement et en soustrayant sa valeur du modèle (par exemple la moyenne; dans ce casSS
X=11
etY=5.4
), on pourrait évaluer l'exactitude d'un modèle. On pourrait dire que le modèle a sur / sous-estimé la valeur réelle. Cependant, lorsque l'on résume tous les écarts par rapport au modèle, l'erreur totale a tendance à être nulle , les valeurs s'annulent car il existe des valeurs positives (le modèle sous-estime un point de données particulier) et des valeurs négatives (le modèle surestime une donnée particulière point). Pour résoudre ce problème, les sommes des déviances sont au carré et maintenant appelées sommes des carrés ( ):Les sommes des carrés sont une mesure de l'écart par rapport au modèle (c'est-à-dire la moyenne ou toute autre droite ajustée à un ensemble de données donné). Pas très utile pour interpréter la déviance du modèle (et la comparer avec d'autres modèles) car elle dépend du nombre d'observations. Plus il y a d'observations, plus les sommes des carrés sont élevées. Cela peut être résolu en divisant les sommes du carré par . La variance d'échantillon résultante ( ) devient "l'erreur moyenne" entre la moyenne et les observations et est donc une mesure de l'adéquation du modèle (c'est-à-dire qu'il représente) les données:n - 1 s2
Pour plus de commodité, la racine carrée de la variance de l'échantillon peut être prise, ce qui est connu comme l'écart-type de l'échantillon:
Maintenant, la covariance évalue si deux variables sont liées l'une à l'autre. Une valeur positive indique que lorsqu'une variable s'écarte de la moyenne, l'autre variable s'écarte dans le même sens.
En standardisant, nous exprimons la covariance par unité d'écart-type, qui est le coefficient de corrélation de Pearson . Cela permet de comparer les variables entre elles qui ont été mesurées dans différentes unités. Le coefficient de corrélation est une mesure de la force d'une relation allant de -1 (une corrélation négative parfaite) à 0 (pas de corrélation) et +1 (une corrélation positive parfaite).r
Dans ce cas, le coefficient de corrélation de Pearson est , ce qui peut être considéré comme une forte corrélation (bien qu'elle soit également relative selon le domaine d'étude). Pour vérifier cela, voici un autre tracé avec sur l'axe des x et sur l'axe des y:r = 0,87
X
Y
Bref, oui, votre sentiment est bon, mais j'espère que ma réponse pourra fournir un certain contexte.
la source
Vous avez (presque) raison. La covariance (et donc la corrélation aussi) ne peut être calculée qu'entre des variables numériques. Cela inclut des variables continues mais aussi des variables numériques discrètes.
Les variables catégorielles pourraient être utilisées pour calculer la corrélation uniquement en fonction d'un code numérique utile pour elles, mais cela ne devrait pas obtenir un avantage pratique - cela pourrait peut-être être utile pour quelques variables catégorielles à deux niveaux, mais d'autres outils sont probablement plus adaptés.
la source
Il n'y a absolument rien de mal à calculer les corrélations où l'une des variables est catégorique. Une forte corrélation positive impliquerait que l'activation (ou la désactivation de votre variable catégorielle selon votre convention) entraîne une augmentation de la réponse. Par exemple, cela pourrait se produire lors du calcul d'une régression logistique où les variables sont catégoriques: prédire le risque d'une crise cardiaque en raison des comorbidités des patients comme le diabète et l'IMB. Dans ce cas, l'IMC aurait une très forte corrélation avec les crises cardiaques. Diriez-vous que ce n'est pas utile?
la source