Régression logistique vs chi carré dans des tableaux de contingence 2x2 et Ix2 (facteur unique - réponse binaire)?

10

J'essaie de comprendre l'utilisation de la régression logistique dans les tables de contingence 2x2 et Ix2. Par exemple, en utilisant cela comme exemple

entrez la description de l'image ici

Quelle est la différence entre l'utilisation du test du chi carré et l'utilisation de la régression logistique? Qu'en est-il d'une table avec plusieurs facteurs nominaux (table Ix2) comme ceci:

entrez la description de l'image ici

Il y a une question similaire ici - mais la réponse est principalement que le chi carré peut gérer les tables mxn, mais ma question est de savoir ce qui est spécifique quand il y a un résultat binaire et un seul facteur nominal. (Le thread lié fait également référence à ce thread , mais il s'agit de plusieurs variables / facteurs).

S'il ne s'agit que d'un seul facteur (c'est-à-dire qu'il n'est pas nécessaire de contrôler d'autres variables) avec une réponse binaire, quelle est la différence de but de la régression logistique?

L Xandor
la source
+1 pour la question, mais vous devez faciliter le copier-coller des données pour travailler avec.
Antoni Parellada du
2
Voir Pourquoi mes valeurs de p diffèrent-elles entre la sortie de régression logistique, le test du chi carré et l'intervalle de confiance pour l'OR? . Le test d'association chi carré de Pearson n'est que le test de score pour l'hypothèse nulle que toutes les pentes sont nulles. Le test du rapport de vraisemblance correspondant est asymptotiquement équivalent. Comme le dit @Kodiologist, les utilisations auxquelles la régression logistique pourrait être utilisée sont plus larges que de tester que toutes les pentes sont nulles.
Scortchi - Réintégrer Monica

Réponses:

12

En fin de compte, ce sont des pommes et des oranges.

La régression logistique est un moyen de modéliser une variable nominale en tant que résultat probabiliste d'une ou plusieurs autres variables. L'ajustement d'un modèle de régression logistique peut être suivi en testant si les coefficients du modèle sont significativement différents de 0, en calculant les intervalles de confiance pour les coefficients ou en examinant dans quelle mesure le modèle peut prédire de nouvelles observations.

Le test d'indépendance χ² est un test de signification spécifique qui teste l'hypothèse nulle selon laquelle deux variables nominales sont indépendantes.

L'utilisation d'une régression logistique ou d'un test χ² dépend de la question à laquelle vous souhaitez répondre. Par exemple, un test χ² pourrait vérifier s'il est déraisonnable de croire que le parti politique enregistré d'une personne est indépendant de sa race, tandis que la régression logistique pourrait calculer la probabilité qu'une personne avec une race, un âge et un sexe donnés appartient à chaque parti politique .

Kodiologue
la source
Merci. Pourriez-vous me donner un exemple des différents types de questions auxquelles vous pouvez répondre avec les différentes méthodes? Existe-t-il des ressources spécifiques que vous pouvez recommander pour comprendre les différentes questions auxquelles les deux méthodes peuvent répondre?
L Xandor
J'ai ajouté des exemples à ma réponse. En ce qui concerne votre deuxième question, Wikipedia est un bon endroit pour commencer. De plus, la plupart des manuels d'introduction aux statistiques appliquées mentionneront à la fois le test d'indépendance χ² et la régression logistique.
Kodiologist
Merci. Je ne sais toujours pas quelle est la différence dans le cas spécifique d'une table de contiguïté 2x2? le chi carré vérifierait si le résultat est indépendant des variations du facteur, mais que fait la régression logistique ici? Je comprends que LR est utile pour faire des prédictions basées sur une série de facteurs, mais en ce qui concerne le simple 2x2, je ne suis pas sûr de la différence (mais il est clairement utilisé) ... pourriez-vous (ou quelqu'un d'autre) utiliser le 2x2 table de stress / reflux dans le message d'origine comme exemple concret de la façon dont ils seraient utilisés différemment? C'est le cas à facteur unique qui m'intéresse le plus
L Xandor
ou la race / le parti politique fonctionne aussi bien qu'un exemple, mais lorsque vous utilisez ensuite la régression logistique, vous utilisez plusieurs facteurs, et je peux voir comment cela est utile là-bas ... mais ce que j'ai spécifiquement du mal à comprendre, c'est pourquoi utilisez LR (ou en quoi est-il différent) dans le cas d'un facteur unique. Si les deux méthodes sont utilisées pour examiner la relation entre la race et le parti politique, quelle est la différence entre le chi carré et la régression logistique?
L Xandor
Dans le cas de l'exemple du stress et du reflux, vous pouvez utiliser la régression logistique pour tester si le stress affecte de manière significative la probabilité de reflux, ou vous pouvez calculer un intervalle de confiance pour le rapport de cotes exprimant cet effet. L'une des différences conceptuelles entre un test χ² est que celui du stress ou du reflux est interprété comme la variable dépendante. Mais dans tous les cas, la régression logistique peut être considérée comme excessive pour un tableau de contingence 2 par 2.
Kodiologist