La réponse à la question 1 dépendra de votre question de recherche et du public visé par le résultat.
Si votre question de recherche suggère de parler des différences en b en fonction du profil de A, cela aidera évidemment à encadrer votre résumé. Dans une étude épidémiologique, même si vous n'échantillonnez pas sur la base de A (variable indépendante en tant qu'état exposé / non exposé), il serait toujours judicieux d'utiliser cette classification comme variable indépendante [exposition] et la variable continue comme variable dépendante [résultat ]. Il semble que vous connaissiez déjà la réponse à cette question.
Vous devez également réfléchir à la manière dont vous pourriez interpréter le résultat en termes de présentation des résultats aux autres (et d'interprétation vous-même). Un modèle de variable continue [variable dépendante comme résultat] aurait une différence moyenne (ou similaire) comme résumé; un modèle de variable dichotomique comme résultat aurait un rapport de cotes (rapport de cotes accrues pour une unité de la variable continue, qui pourrait être ajusté pour donner, par exemple, une augmentation relative par cinq kilos de poids supplémentaire pour la probabilité de diabète de type II.)
D'après mon expérience de la consultation des paramètres et de l'explication aux gens, la première (différence de moyen) est généralement plus facile à expliquer à d'autres personnes que la seconde (odds ratio pour une unité de différence de variable indépendante continue).
Pour votre question 2 , si vous souhaitez exécuter un modèle multivariable, où vous contrôlez les covariables, cela vous aidera à choisir des variables dépendantes / indépendantes au début. Il est probablement préférable de s'en tenir à la même méthode, de l'analyse univariée à l'analyse multivariable, plutôt que de passer d'une approche à l'autre, simplement pour faciliter l'explication.
Note finale sur ce dernier point: du point de vue du test d'hypothèse, une régression logistique avec une variable indépendante continue [exposition] et une variable dépendante dichotomique [unique] devrait renvoyer la même valeur p qu'un test t non apparié en supposant une variance inégale avec les variables inversé (de mémoire - je ne suis pas tout à fait sûr si cela est toujours vrai cependant.)
Le test de Wilcoxon-Mann-Whitney est un cas particulier du modèle logistique ordinal à cotes proportionnelles, vous pouvez donc dire qu'il n'est pas nécessaire de changer le modèle pour utiliser la régression logistique. Mais le problème fondamental dans le choix du modèle est de déterminer pour quelles variables il est logique de s'ajuster.
la source
C'est une tentative de réponse partielle:
J'utiliserais un test de Mann Whitney car il fait moins d'hypothèses. La régression logistique suppose une forme proche (à savoir logit) pour la relation entre ces deux variables). De plus, la régression logistique suppose que est Bernoulli étant donné : si ce n'est pas le cas (par exemple, un nombre a priori d'échantillons avec et comme dans une étude cas-témoins) a été sélectionné, je ne suis pas sûr si les résultats (tels que les valeurs p) tiendraient toujours. Cependant, j'ai déjà vu beaucoup de gens faire cela.Y X Y=1 Y=0
D'un autre côté, Mann Whitney ne semble pas avoir de problèmes avec cela, c'est-à-dire qu'il s'agit ou non d'une étude cas-témoins.
la source
Comme pour de nombreuses questions, la réponse dépend de votre objectif sous-jacent lors de la réalisation de l'analyse. Si vous souhaitez non seulement montrer qu'il existe une association significative entre une variable dichotomique A et une variable continue b, mais également pouvoir calculer la probabilité attendue de l'événement enregistré dans la variable A, alors vous voulez utiliser la logistique régression, car cette approche vous fournit une équation de régression. De plus, la régression logistique dans le cas bivarié de A et b peut être étendue au cas multivarié de prédiction de A à partir de b et de nombreuses autres variables indépendantes dans le but de contrôler les covariables, de tester les modèles médiationnels, d'examiner les interactions et tous les d'autres bonnes choses que nous pouvons faire avec la régression multiple. Ayant dit cela, vous devriez probablement considérer la fonction de lien reliant la variable dichotomique A à la variable continue B. La régression logistique a utilisé un lien logit, qui est plus approprié lorsque la probabilité du résultat est très élevée ou faible, tandis qu'un lien probit peut être plus approprié lorsque la probabilité de l'événement est plus proche de .5 Le choix de la fonction de lien qui convient à vos données est important pour construire un bon modèle de régression. Vous trouverez plus d'informations sur les fonctions des liens sur les liens suivants: 5 Le choix de la fonction de lien qui convient à vos données est important pour construire un bon modèle de régression. Vous trouverez plus d'informations sur les fonctions des liens sur les liens suivants: 5 Le choix de la fonction de lien qui convient à vos données est important pour construire un bon modèle de régression. Vous trouverez plus d'informations sur les fonctions des liens sur les liens suivants:
http://www.stat.ufl.edu/CourseINFO/STA6167/logistregSFLM.pdf
http://www.norusis.com/pdf/ASPC_v13.pdf
la source
cloglog
quand les catégories de réponse sont déséquilibrées, mais d'autres options existent.