J'aimerais trouver la corrélation entre une variable continue (variable dépendante) et une variable catégorique (nominale: genre, variable indépendante). Les données continues ne sont pas normalement distribuées. Auparavant, je l'avais calculé en utilisant Spearman . Cependant, on m'a dit que ce n'est pas correct.
Lors de mes recherches sur Internet, j’ai trouvé que la boîte à moustaches pouvait donner une idée de la valeur de leur association; cependant, je cherchais une valeur quantifiée comme le coefficient de moment de produit de Pearson ou de Spearman . Pouvez-vous m'aider s'il vous plaît sur comment faire cela? Ou, informer sur quelle méthode serait appropriée?
Le coefficient de Point Biserial serait-il la bonne option?
correlation
categorical-data
descriptive-statistics
biostatistics
spearman-rho
Md. Ferdous Wahid
la source
la source
Réponses:
Le relecteur aurait dû vous dire pourquoi le spearman n'est pas approprié. En voici une version: Soit les données ( Z i , I i ) où Z est la variable mesurée et I, l'indicateur de genre, soit 0 (homme), 1 (femme). Puis de Spearman de ρ est calculée sur la base des rangs de Z , I , respectivement. Puisqu'il n'y a que deux valeurs possibles pour l'indicateur I , il y aura beaucoup de liens, donc cette formule n'est pas appropriée. Si vous remplacez rang par rang moyen, vous n'obtiendrez que deux valeurs différentes, une pour les hommes et une autre pour les femmes. Alors ρρ (Zi,Ii) Z I ρ Z,I I ρ deviendra fondamentalement une version redimensionnée des rangs moyens entre les deux groupes. Il serait plus simple (plus interprétable) de simplement comparer les moyens! Une autre approche est la suivante.
Soit les observations de la variable continue chez les hommes, Y 1 , … , Y m identiques chez les femmes. Maintenant, si les distributions de X et de Y sont identiques, alors P ( X > Y ) sera égal à 0,5 (supposons que la distribution soit purement continue, il n'y a donc pas de liens). Dans le cas général, définissez θ = P ( X > Y ) où X est un tirage au sort parmi les hommes, YX1,…,Xn Y1,…,Ym X Y P(X>Y)
la source
J'ai le même problème maintenant. Je n'ai encore vu personne parler de cela, mais je suis en train de faire une recherche sur la corrélation Point-Biserial qui repose sur le coefficient de corrélation de Pearson. C'est moyen pour une variable continue et une variable dichotomique.
Lecture rapide: https://statistics.laerd.com/spss-tutorials/point-biserial-correlation-using-spss-statistics.php
J'utilise R, mais je trouve que SPSS dispose d'une excellente documentation.
la source
Il semblerait que la comparaison la plus appropriée serait de comparer les médianes (comme c'est non normal) et la distribution entre les catégories binaires. Je suggérerais le test non paramétrique de Mann-Whitney ...
la source
Pour le problème spécifié, il peut être utile de mesurer la courbe de la surface sous la courbe d’un récepteur-opérateur.
Je ne suis pas un expert en la matière, alors j'essaie de rester simple. Veuillez commenter toute erreur ou interprétation erronée afin que je puisse la changer.
La déclaration ci-dessus est calculée avec l'aire sous la courbe.
Exemple de bonne corrélation (à droite) et d’ anti-corrélation juste (à gauche).
la source
vous devriez utiliser une alternative de tendance linéaire à l'indépendance. Si vous ne le savez pas de cette manière, vous pouvez étudier une introduction à l’analyse par catégorie de données page 41.
la source