J'essaie de trouver la corrélation entre une variable dichotomique et une variable continue.
D'après mon travail sur le terrain, j'ai trouvé que je devais utiliser un test t indépendant et la condition préalable est que la distribution de la variable doit être normale.
J'ai effectué le test de Kolmogorov-Smirnov pour tester la normalité et j'ai constaté que la variable continue n'est pas normale et est asymétrique (pour environ 4 000 points de données).
J'ai fait le test de Kolmogorov-Smirnov pour toute la gamme de variables. Dois-je les diviser en groupes et faire le test? C'est-à-dire, si j'ai risk level
( 0
= pas risqué, 1
= risqué) et des taux de cholestérol, dois-je alors:
Divisez-les en deux groupes, comme
Risk level =0 (Cholestrol level) -> Apply KS Risk level =1 (Cholestrol level) -> Apply KS
Les prendre ensemble et appliquer le test? (Je l'ai effectué sur l'ensemble de données uniquement.)
Après cela, quel test dois-je faire s'il n'est toujours pas normal?
EDIT: Le scénario ci-dessus était juste une description que j'ai essayé de fournir pour mon problème. J'ai un ensemble de données qui contient plus de 1000 variables et environ 4000 échantillons. Ils sont de nature continue ou catégorique. Ma tâche est de prédire une variable dichotomique basée sur ces variables (peut-être trouver un modèle de régression logistique). J'ai donc pensé que l'enquête initiale impliquerait de trouver la corrélation entre dichotomique et une variable continue.
J'essayais de voir comment la distribution des variables est et j'ai donc essayé de passer au test t. Ici, j'ai trouvé la normalité comme un problème. Le test de Kolmogorov-Smirnov a donné une valeur de signification de 0,00 dans la plupart de ces variables.
Dois-je assumer la normalité ici? L'asymétrie et le kurtosis de ces variables montrent également que les données sont asymétriques (> 0) dans presque tous les cas.
Selon la note donnée ci-dessous, j'étudierai davantage la corrélation point-bisériale. Mais concernant la distribution des variables, je ne suis toujours pas sûr.
la source
Réponses:
Je suis un peu confus; votre titre dit "corrélation" mais votre article fait référence à des tests t. Un test t est un test de localisation centrale - plus précisément, la moyenne d'un ensemble de données est-elle différente de la moyenne d'un autre ensemble? La corrélation, en revanche, montre la relation entre deux variables. Il existe une variété de mesures de corrélation, il semble que la corrélation point-bisériale soit appropriée dans votre cas.
Vous avez raison de dire qu'un test t suppose la normalité; cependant, les tests de normalité donneront probablement des résultats significatifs même pour des non-normalités triviales avec un N de 4000. Les tests T sont assez robustes à des écarts modestes de la normalité si les variances des deux ensembles de données sont à peu près égales et l'échantillon tailles à peu près égales. Mais un test non paramétrique est plus robuste aux valeurs aberrantes et la plupart d'entre elles ont une puissance presque aussi élevée que le test t, même si les distributions sont normales.
Cependant, dans votre exemple, vous utilisez le «cholestérol» comme étant à risque ou non à risque. C'est presque certainement une mauvaise idée. La dichotomisation d'une variable continue invoque la pensée magique. Il dit qu'à un moment donné, le cholestérol passe de «non risqué» à «risqué». Supposons que vous ayez utilisé 200 comme seuil - alors vous dites que quelqu'un avec un cholestérol de 201 est comme quelqu'un avec 400, et quelqu'un avec 199 est comme quelqu'un avec 100. Cela n'a pas de sens.
la source
Simplifions les choses. Avec N = 4 000 pour le taux de cholestérol, vous ne devriez pas avoir de problème avec vos résultats biaisés par les valeurs aberrantes. Par conséquent, vous pouvez utiliser la corrélation elle-même, comme l'indique votre phrase initiale. Peu importe que vous évaluiez la corrélation via la méthode Pearson, Spearman ou Point-Biserial.
Si, au lieu de cela, vous avez vraiment besoin d'exprimer les résultats en termes de différence de cholestérol typique entre les groupes à haut risque et à faible risque, le test de Mann-Whitney U est bien à utiliser, mais vous pouvez aussi utiliser le test t plus informatif . Avec ce N (et encore une fois, avec les valeurs astronomiques quelque chose que vous pouvez sans aucun doute exclure), vous n'avez pas à vous soucier du fait que le manque de normalité compromettra vos résultats.
la source