Choisir entre la régression logistique et les tests Mann Whitney / t

8

J'ai une variable dichotomique , qui n'a pas de proportion a priori déterminée de 0 et de 1, et une variable continue .Ab

Dans le scénario 1, je décide de désigner comme variable indépendante X et b comme variable dépendante y . Je teste ensuite X contre y en utilisant des tests tels que Mann Whitney (sans distribution), t-test (distribution normale), etc.AXbyXy

Dans le scénario 2, je décide de désigner A comme variable dépendanteY , et b comme variable indépendantex . Je teste ensuite x contre Y utilisant une régression logistique.

  1. Quel modèle dois-je choisir lorsque je ne connais pas la directionnalité de la relation entre A et b , c'est-à-dire que je ne peux pas décider si A est la variable indépendante ou b est la variable indépendante?

  2. Si je ne sais pas quelles sont les variables dépendantes ou indépendantes, serait-il invalide pour moi d'utiliser le test t / Mann-Whitney en premier lieu comme une sorte d'analyse univariée, puis d'utiliser la régression logistique comme une analyse multivariée?

jetistat001
la source

Réponses:

6

La réponse à la question 1 dépendra de votre question de recherche et du public visé par le résultat.

Si votre question de recherche suggère de parler des différences en b en fonction du profil de A, cela aidera évidemment à encadrer votre résumé. Dans une étude épidémiologique, même si vous n'échantillonnez pas sur la base de A (variable indépendante en tant qu'état exposé / non exposé), il serait toujours judicieux d'utiliser cette classification comme variable indépendante [exposition] et la variable continue comme variable dépendante [résultat ]. Il semble que vous connaissiez déjà la réponse à cette question.

Vous devez également réfléchir à la manière dont vous pourriez interpréter le résultat en termes de présentation des résultats aux autres (et d'interprétation vous-même). Un modèle de variable continue [variable dépendante comme résultat] aurait une différence moyenne (ou similaire) comme résumé; un modèle de variable dichotomique comme résultat aurait un rapport de cotes (rapport de cotes accrues pour une unité de la variable continue, qui pourrait être ajusté pour donner, par exemple, une augmentation relative par cinq kilos de poids supplémentaire pour la probabilité de diabète de type II.)

D'après mon expérience de la consultation des paramètres et de l'explication aux gens, la première (différence de moyen) est généralement plus facile à expliquer à d'autres personnes que la seconde (odds ratio pour une unité de différence de variable indépendante continue).

Pour votre question 2 , si vous souhaitez exécuter un modèle multivariable, où vous contrôlez les covariables, cela vous aidera à choisir des variables dépendantes / indépendantes au début. Il est probablement préférable de s'en tenir à la même méthode, de l'analyse univariée à l'analyse multivariable, plutôt que de passer d'une approche à l'autre, simplement pour faciliter l'explication.

Note finale sur ce dernier point: du point de vue du test d'hypothèse, une régression logistique avec une variable indépendante continue [exposition] et une variable dépendante dichotomique [unique] devrait renvoyer la même valeur p qu'un test t non apparié en supposant une variance inégale avec les variables inversé (de mémoire - je ne suis pas tout à fait sûr si cela est toujours vrai cependant.)

James Stanley
la source
2
En répondant à cette question ( stats.stackexchange.com/questions/48381/… ), j'ai trouvé l'article suivant qui traite formellement de l'équivalence de puissance entre la régression logistique binaire et un test t non apparié ncbi.nlm.nih.gov/pubmed/9699234
James Stanley
6

Le test de Wilcoxon-Mann-Whitney est un cas particulier du modèle logistique ordinal à cotes proportionnelles, vous pouvez donc dire qu'il n'est pas nécessaire de changer le modèle pour utiliser la régression logistique. Mais le problème fondamental dans le choix du modèle est de déterminer pour quelles variables il est logique de s'ajuster.

Frank Harrell
la source
2
La vôtre est une notion très intéressante et vive, @Frank, mais elle n'est pas détaillée. Veuillez me l'expliquer: quel est ce «cas spécial» où la régression logistique ordinale d'une variable quantitative sur une variable dichotomique est exactement équivalente au test de Mann-Whitney?
ttnphns
1
Un modèle de cotes proportionnelles avec seulement une série de variables muettes comme prédicteurs, représentant k groupes, équivaut à une ANOVA de Kruskal-Wallis avec k groupes (k = 2 -> Wilcoxon). Le numérateur de la statistique de score est la statistique de classement ANOVA (Wilcoxon).
Frank Harrell
1
S'il vous plaît, @Frank, pouvez-vous trouver le temps de démontrer (prouver) l'équivalence de certaines petites données directement dans votre réponse? Ce serait intéressant et important. Une référence, le cas échéant, pourrait également être agréable. Merci beaucoup.
ttnphns
1
Voir Whitehead, John: Calculs de taille d'échantillon pour les données catégorielles ordonnées. Statistics in Medicine 12 : 2257-2271; 1993. Voir la lettre à l'éditeur SM 15: 1065-6 pour le cas binaire; voir les errata dans SM 13: 871 1994
Frank Harrell
2
Pourriez-vous développer votre dernière phrase dans la réponse? Merci.
jetistat001
1

C'est une tentative de réponse partielle:

J'utiliserais un test de Mann Whitney car il fait moins d'hypothèses. La régression logistique suppose une forme proche (à savoir logit) pour la relation entre ces deux variables). De plus, la régression logistique suppose que est Bernoulli étant donné : si ce n'est pas le cas (par exemple, un nombre a priori d'échantillons avec et comme dans une étude cas-témoins) a été sélectionné, je ne suis pas sûr si les résultats (tels que les valeurs p) tiendraient toujours. Cependant, j'ai déjà vu beaucoup de gens faire cela.YXY=1Y=0

D'un autre côté, Mann Whitney ne semble pas avoir de problèmes avec cela, c'est-à-dire qu'il s'agit ou non d'une étude cas-témoins.

la démence
la source
1
+1 sur la constitution a priori deY. C'est un point important et j'aurais dû mentionner qu'il n'y a pas de nombre a priori d'échantillons dans aucun des scénarios que je décris, etYsuit Bernoulli. En faveur de LR, on pourrait soutenir que LR offre une analyse multivariée. Avez-vous des idées sur la notion d'utiliser les deux consécutivement?
jetistat001
Eh bien, la régression logistique a été spécialement conçue pour fonctionner avec des études cas-témoins voir stats.stackexchange.com/questions/67903/…
kjetil b halvorsen
0

Comme pour de nombreuses questions, la réponse dépend de votre objectif sous-jacent lors de la réalisation de l'analyse. Si vous souhaitez non seulement montrer qu'il existe une association significative entre une variable dichotomique A et une variable continue b, mais également pouvoir calculer la probabilité attendue de l'événement enregistré dans la variable A, alors vous voulez utiliser la logistique régression, car cette approche vous fournit une équation de régression. De plus, la régression logistique dans le cas bivarié de A et b peut être étendue au cas multivarié de prédiction de A à partir de b et de nombreuses autres variables indépendantes dans le but de contrôler les covariables, de tester les modèles médiationnels, d'examiner les interactions et tous les d'autres bonnes choses que nous pouvons faire avec la régression multiple. Ayant dit cela, vous devriez probablement considérer la fonction de lien reliant la variable dichotomique A à la variable continue B. La régression logistique a utilisé un lien logit, qui est plus approprié lorsque la probabilité du résultat est très élevée ou faible, tandis qu'un lien probit peut être plus approprié lorsque la probabilité de l'événement est plus proche de .5 Le choix de la fonction de lien qui convient à vos données est important pour construire un bon modèle de régression. Vous trouverez plus d'informations sur les fonctions des liens sur les liens suivants: 5 Le choix de la fonction de lien qui convient à vos données est important pour construire un bon modèle de régression. Vous trouverez plus d'informations sur les fonctions des liens sur les liens suivants: 5 Le choix de la fonction de lien qui convient à vos données est important pour construire un bon modèle de régression. Vous trouverez plus d'informations sur les fonctions des liens sur les liens suivants:

http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf

http://www.norusis.com/pdf/ASPC_v13.pdf

StatisticsDoc Consulting
la source
2
Je ne pense pas que le choix entre l'utilisation du lien logit & probit ait beaucoup à voir avec le fait que les probabilités soient proches de 0,5. J'ai écrit sur le choix du lien ici: la différence entre les modèles logit et probit . J'ai entendu des gens suggérer cloglogquand les catégories de réponse sont déséquilibrées, mais d'autres options existent.
gung - Rétablir Monica