Corrélation entre variable dichotomique et variable continue

10

J'essaie de trouver la corrélation entre une variable dichotomique et une variable continue.

D'après mon travail sur le terrain, j'ai trouvé que je devais utiliser un test t indépendant et la condition préalable est que la distribution de la variable doit être normale.

J'ai effectué le test de Kolmogorov-Smirnov pour tester la normalité et j'ai constaté que la variable continue n'est pas normale et est asymétrique (pour environ 4 000 points de données).

J'ai fait le test de Kolmogorov-Smirnov pour toute la gamme de variables. Dois-je les diviser en groupes et faire le test? C'est-à-dire, si j'ai risk level( 0= pas risqué, 1= risqué) et des taux de cholestérol, dois-je alors:

  • Divisez-les en deux groupes, comme

    Risk level =0 (Cholestrol level) -> Apply KS
    Risk level =1 (Cholestrol level) -> Apply KS
    
  • Les prendre ensemble et appliquer le test? (Je l'ai effectué sur l'ensemble de données uniquement.)

Après cela, quel test dois-je faire s'il n'est toujours pas normal?

EDIT: Le scénario ci-dessus était juste une description que j'ai essayé de fournir pour mon problème. J'ai un ensemble de données qui contient plus de 1000 variables et environ 4000 échantillons. Ils sont de nature continue ou catégorique. Ma tâche est de prédire une variable dichotomique basée sur ces variables (peut-être trouver un modèle de régression logistique). J'ai donc pensé que l'enquête initiale impliquerait de trouver la corrélation entre dichotomique et une variable continue.

J'essayais de voir comment la distribution des variables est et j'ai donc essayé de passer au test t. Ici, j'ai trouvé la normalité comme un problème. Le test de Kolmogorov-Smirnov a donné une valeur de signification de 0,00 dans la plupart de ces variables.

Dois-je assumer la normalité ici? L'asymétrie et le kurtosis de ces variables montrent également que les données sont asymétriques (> 0) dans presque tous les cas.

Selon la note donnée ci-dessous, j'étudierai davantage la corrélation point-bisériale. Mais concernant la distribution des variables, je ne suis toujours pas sûr.

Sree Aurovindh
la source
1
La corrélation (de toute sorte) entre un continuos et une variable binaire (groupe), n'est pas beaucoup plus (et peut-être moins ...) qu'une simple comparaison des moyennes (une sorte de moyenne ...) entre les groupes, donc généralement il vaut mieux faire ça!
kjetil b halvorsen

Réponses:

14

Je suis un peu confus; votre titre dit "corrélation" mais votre article fait référence à des tests t. Un test t est un test de localisation centrale - plus précisément, la moyenne d'un ensemble de données est-elle différente de la moyenne d'un autre ensemble? La corrélation, en revanche, montre la relation entre deux variables. Il existe une variété de mesures de corrélation, il semble que la corrélation point-bisériale soit appropriée dans votre cas.

Vous avez raison de dire qu'un test t suppose la normalité; cependant, les tests de normalité donneront probablement des résultats significatifs même pour des non-normalités triviales avec un N de 4000. Les tests T sont assez robustes à des écarts modestes de la normalité si les variances des deux ensembles de données sont à peu près égales et l'échantillon tailles à peu près égales. Mais un test non paramétrique est plus robuste aux valeurs aberrantes et la plupart d'entre elles ont une puissance presque aussi élevée que le test t, même si les distributions sont normales.

Cependant, dans votre exemple, vous utilisez le «cholestérol» comme étant à risque ou non à risque. C'est presque certainement une mauvaise idée. La dichotomisation d'une variable continue invoque la pensée magique. Il dit qu'à un moment donné, le cholestérol passe de «non risqué» à «risqué». Supposons que vous ayez utilisé 200 comme seuil - alors vous dites que quelqu'un avec un cholestérol de 201 est comme quelqu'un avec 400, et quelqu'un avec 199 est comme quelqu'un avec 100. Cela n'a pas de sens.

Peter Flom - Réintégrer Monica
la source
2
Je suis d'accord, et je pense que la plupart d'entre nous sommes d'accord, que la dichotomisation gaspille l'information et que cela peut être une méthode grossière ou grossière ou maladroite. Je pense juste que l'argument de la "pensée magique" dépasse un peu. Choisir de masquer une différence n'est pas la même chose que de croire qu'il n'y a pas de différence. Je m'attends à ce qu'il y ait des temps à venir où je trouverai pratique et en vaut la peine de faire des catégories à partir d'une variable continue, à des fins d'analyse ou de rapport. Juste mes 2 cents.
rolando2
2
Faire des catégories à partir de variables continues est pire que magique. Diabolique peut être un meilleur mot. Si vous souhaitez maximiser la complexité du modèle, augmenter le biais et augmenter la variance en même temps, la dichotomisation est faite pour vous. [Il maximise la complexité car les informations perdues en raison de la catégorisation nécessitent l'ajout de plus de variables au modèle pour obtenir le même ]R2
Frank Harrell
6

Simplifions les choses. Avec N = 4 000 pour le taux de cholestérol, vous ne devriez pas avoir de problème avec vos résultats biaisés par les valeurs aberrantes. Par conséquent, vous pouvez utiliser la corrélation elle-même, comme l'indique votre phrase initiale. Peu importe que vous évaluiez la corrélation via la méthode Pearson, Spearman ou Point-Biserial.

Si, au lieu de cela, vous avez vraiment besoin d'exprimer les résultats en termes de différence de cholestérol typique entre les groupes à haut risque et à faible risque, le test de Mann-Whitney U est bien à utiliser, mais vous pouvez aussi utiliser le test t plus informatif . Avec ce N (et encore une fois, avec les valeurs astronomiques quelque chose que vous pouvez sans aucun doute exclure), vous n'avez pas à vous soucier du fait que le manque de normalité compromettra vos résultats.

rolando2
la source
Merci pour votre réponse. Mais si je dois connaître les valeurs aberrantes fait une grosse distorsion, est-il correct d'utiliser le kurtosis et l'asymétrie pour le détecter? Dans le cas où cela est vrai au-dessus des valeurs de kurtosis et d'asymétrie, devrais-je supposer que la distribution n'est pas normale. Merci pour votre réponse
Sree Aurovindh
Je suppose, sur la base d'une connaissance limitée du contenu, qu'avec le cholestérol, vous n'aurez pas de valeurs beaucoup plus élevées que les autres. C'est pourquoi je pense que vous pouvez utiliser une méthode paramétrique telle que la corrélation ou un test t. Ce n'est pas que je pense que la distribution est normale. Vous n'avez pas besoin que ce soit normal. À propos, à la lumière de la réponse de Peter: Je pensais (et j'espère) que vous aviez une source de statut à risque élevé / faible qui était indépendante du score de cholestérol. Je suis d'accord qu'il n'est probablement pas utile de dichotomiser.
rolando2
2
Puis-je vous suggérer d'ajouter une section à votre question d'origine, intitulée "MODIFIER: ....", qui indique quelles questions vous restent en suspens et qui n'ont pas été traitées par les réponses et les commentaires que vous avez reçus jusqu'à présent.
rolando2
Merci pour votre suggestion.J'ai mis à jour la même chose.Désolé pour la question ambiguë en premier lieu.Merci
Sree Aurovindh