Corrélations entre variables continues et catégorielles (nominales)

42

J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce n'est pas correct.ρ

Lors de mes recherches sur Internet, j’ai trouvé que la boîte à moustaches pouvait donner une idée de la valeur de leur association; cependant, je cherchais une valeur quantifiée comme le coefficient de moment de produit de Pearson ou de Spearman . Pouvez-vous m'aider s'il vous plaît sur comment faire cela? Ou, informer sur quelle méthode serait appropriée?ρ

Le coefficient de Point Biserial serait-il la bonne option?

Md. Ferdous Wahid
la source
Normalement, on ne peut pas conseiller uniquement sur la base du format des données! Que représentent les données et que voulez-vous réaliser avec votre analyse?
kjetil b halvorsen
1
Merci kjetil, j'aimerais comparer l'association entre le sexe et d'autres variables continues. Il suffit de savoir quelles variables continues sont corrélées modérément / fortement et quelles variables ne le sont pas.
Md. Ferdous Wahid
1
Cela ressemble à une copie de stats.stackexchange.com/questions/25229/… Pouvez-vous nous dire si les réponses à cette question vous aident?
kjetil b halvorsen
Oui, ma question est semblable à celle. Cependant, j'ai eu une réaction lorsque l'examinateur a indiqué que de Spearman n'est pas approprié. La taille de mon échantillon est de 31. Selon la réponse (le lien fourni), la non-normale ne poserait pas de problème et toute méthode de corrélation peut être utilisée (Spearman / Pearson / Point-Biserial) pour le grand jeu de données. Serait-ce vrai aussi pour le petit jeu de données? À propos, le genre n'est pas une échelle nominale dichotomique créée artificiellement. Le lien ci-dessus devrait utiliser le coefficient de corrélation bisériale. ρ
Md. Ferdous Wahid
3
La corrélation entre la variable nominale et l' intervalle ou ordinales stats.stackexchange.com/q/73065/3277
ttnphns

Réponses:

25

Le relecteur aurait dû vous dire pourquoi le spearman n'est pas approprié. En voici une version: Soit les données ( Z i , I i )Z est la variable mesurée et I, l'indicateur de genre, soit 0 (homme), 1 (femme). Puis de Spearman de ρ est calculée sur la base des rangs de Z , I , respectivement. Puisqu'il n'y a que deux valeurs possibles pour l'indicateur I , il y aura beaucoup de liens, donc cette formule n'est pas appropriée. Si vous remplacez rang par rang moyen, vous n'obtiendrez que deux valeurs différentes, une pour les hommes et une autre pour les femmes. Alors ρρ(Zi,Ii)ZIρZ,IIρdeviendra fondamentalement une version redimensionnée des rangs moyens entre les deux groupes. Il serait plus simple (plus interprétable) de simplement comparer les moyens! Une autre approche est la suivante.

Soit les observations de la variable continue chez les hommes, Y 1 , , Y m identiques chez les femmes. Maintenant, si les distributions de X et de Y sont identiques, alors P ( X > Y ) sera égal à 0,5 (supposons que la distribution soit purement continue, il n'y a donc pas de liens). Dans le cas général, définissez θ = P ( X > Y )X est un tirage au sort parmi les hommes, YX1,,XnY1,,YmXYP(X>Y)

θ=P(X>Y)
XYchez les femmes. Pouvons-nous estimer partir de notre échantillon? Formez toutes les paires ( X i , Y j ) (sans liens) et comptez pour combien nous avons "l'homme est plus grand" ( X i > Y j ) ( M ) et pour combien de "femme est plus grande" ( X i < Y j ) ( W ). Alors une estimation sur 9 de θ est Mθ(Xi,Yj)Xi>YjMXi<YjWθ C'est une mesure raisonnable de corrélation! (S'il n'y a que quelques liens, ignorez-les simplement). Mais je ne sais pas comment ça s'appelle, si ça porte un nom. Celui-ci peut être proche: https://en.wikipedia.org/wiki/Goodman_and_Kruskal%27s_gamma
MM+W
kjetil b halvorsen
la source
5
La corrélation de rang de Spearman est simplement la corrélation de Pearson appliquée aux rangs de la variable numérique et aux valeurs de la variable binaire d'origine (le classement n'a pas d'effet ici). Donc, le rho de Spearman est l'analogon du rang de la corrélation Point-Biserial. Je ne vois pas de problème à utiliser le rho de Spearman de manière descriptive dans cette situation.
Michael M
Michael Mayer: Oui, cela pourrait fonctionner, mais y a-t-il un sens à cela? Il ne donne pas d'informations qui ne sont pas contenues dans une différence de moyen! et cela est plus directement interprétable.
kjetil b halvorsen
1
Une différence de rang est-elle beaucoup plus simple à interpréter comme étant le rho de Spearman? Même si c'était le cas, diriez-vous que le rho de Spearman est faux? Triste que nous ne voyons pas les critiques commenter.
Michael M
1
Ce que vous proposez est bien. Il semble être lié à la statistique de test du test à deux échantillons de Wilcoxon, elle-même similaire à la corrélation de rang de Kendall entre le résultat numérique et la variable de groupe binaire.
Michael M
1
@ tao.hong Dans quel sens pensez-vous qu'il est asymétrique? Si vous changez les étiquettes (hommes / femmes), alors à la fois et θθθ^ commutateurs de la même manière, à . 1-θ
kjetil b halvorsen
8

J'ai le même problème maintenant. Je n'ai encore vu personne parler de cela, mais je suis en train de faire une recherche sur la corrélation Point-Biserial qui repose sur le coefficient de corrélation de Pearson. C'est moyen pour une variable continue et une variable dichotomique.

Lecture rapide: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php

J'utilise R, mais je trouve que SPSS dispose d'une excellente documentation.

Jon
la source
1
Excellente référence pour trouver une corrélation entre une variable continue et une variable dichotomique! Cependant, les hypothèses énumérées sont un peu fortes.
Dimanche
1

Il semblerait que la comparaison la plus appropriée serait de comparer les médianes (comme c'est non normal) et la distribution entre les catégories binaires. Je suggérerais le test non paramétrique de Mann-Whitney ...

brca1
la source
6
Bien que Mann-Whitney soit un moyen d'identifier le changement de localisation d'une variable (ou même de formes plus générales de dominance stochastique) d'une variable catégorique binaire, Mann-Whitney ne compare pas les médianes, du moins pas sans hypothèses supplémentaires.
Glen_b -Reinstate Monica
1

Pour le problème spécifié, il peut être utile de mesurer la courbe de la surface sous la courbe d’un récepteur-opérateur.

Je ne suis pas un expert en la matière, alors j'essaie de rester simple. Veuillez commenter toute erreur ou interprétation erronée afin que je puisse la changer.

XyXXX

XX

XX

La déclaration ci-dessus est calculée avec l'aire sous la courbe.

Exemple de bonne corrélation (à droite) et d'anti-corrélation juste (à gauche) Exemple de bonne corrélation (à droite) et d’ anti-corrélation juste (à gauche).

Aerijman
la source
1
Bienvenue sur CV! Votre réponse est un peu trop courte et elle ne semble pas aider à trouver: "la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante)" . Pourriez-vous modifier votre réponse pour inclure la façon dont AUROC est censé atteindre cet objectif?
Frans Rodenburg
-3

vous devriez utiliser une alternative de tendance linéaire à l'indépendance. Si vous ne le savez pas de cette manière, vous pouvez étudier une introduction à l’analyse par catégorie de données page 41.

Mehdi Loohs
la source
4
Il y a déjà une réponse acceptée. Et la réponse de votre réponse n’est pas claire. Pourriez-vous expliquer plus? Je suppose que vous faites référence à l'introduction d'Agresti à l'analyse de données catégorielle. S'il vous plaît fournir une citation complète.
TEG - Rétablir Monica le