Les prédicteurs significatifs deviennent non significatifs dans la régression logistique multiple

11

Lorsque j'analyse mes variables dans deux modèles de régression logistique distincts (univariés), j'obtiens ce qui suit:

Predictor 1:    B= 1.049,    SE=.352,    Exp(B)=2.85,    95% CI=(1.43, 5.69),    p=.003
   Constant:    B=-0.434,    SE=.217,    Exp(B)=0.65,                            p=.046

Predictor 2:    B= 1.379,    SE=.386,    Exp(B)=3.97,    95% CI=(1.86, 8.47),    p<.001
   Constant:    B=-0.447,    SE=.205,    Exp(B)=0.64,                            p=.029

mais quand je les saisis dans un seul modèle de régression logistique multiple, j'obtiens:

Predictor 1:    B= 0.556,    SE=.406,    Exp(B)=1.74,    95% CI=(0.79, 3.86),    p=.171
Predictor 2:    B= 1.094,    SE=.436,    Exp(B)=2.99,    95% CI=(1.27, 7.02),    p=.012
   Constant:    B=-0.574,    SE=.227,    Exp(B)=0.56,                            p=.012

Les deux prédicteurs sont dichotomiques (catégoriques). J'ai vérifié la multicolinéarité.

Je ne sais pas si j'ai donné suffisamment d'informations, mais je ne comprends pas pourquoi le prédicteur 1 est passé de significatif à non significatif et pourquoi les rapports de cotes sont si différents dans le modèle de régression multiple. Quelqu'un peut-il fournir une explication de base de ce qui se passe?

Annie
la source
2
multivariée indique généralement plusieurs variables dépendantes - vous vouliez dire plusieurs prédicteurs, non? Cela serait généralement appelé régression multiple.
Macro
1
De plus, les de différents modèles de régression logistique ne sont généralement pas comparables. En effet, l'échelle a changé - c'est un problème subtil, mais l'idée de base est que la variance totale (sur l'échelle latente où la régression logistique se produit naturellement - voir en.wikipedia.org/wiki/… ) n'est pas fixe entre les modèles, vous ne devez donc pas vous attendre à ce que les coefficients soient les mêmes d'un modèle à l'autre, bien que cela n'explique pas nécessairement le changement de signification statistique. Comment avez-vous vérifié la dépendance entre les deux prédicteurs? β
Macro
ah, ok merci. J'ai vérifié les diagnostics de colinéarité par régression linéaire sur SPSS et vérifié la tolérance et le VIF - est-ce correct?
Annie
Joli commentaire @Macro. Je me souviens vaguement d'avoir lu des moyens de résoudre ce problème concernant l'échelle, mais je ne me souviens pas où.
Peter Flom - Réintègre Monica
1
@PeterFlom, une chose que vous pouvez faire est de mettre à l'échelle les coefficients par la variance des prédicteurs linéaires (plus , la variance de la distribution logistique standard) - cela les place sur la même échelle. Bien sûr, ils ne sont plus interprétables comme des rapports de cotes une fois que vous faites cela. π2/3
Macro

Réponses:

20

Il existe plusieurs raisons (dont aucune n'est spécifiquement liée à la régression logistique, mais peut survenir dans n'importe quelle régression).

  1. Perte de degrés de liberté: lorsque vous essayez d'estimer plus de paramètres à partir d'un ensemble de données donné, vous en demandez effectivement plus, ce qui coûte de la précision, ce qui entraîne des statistiques t plus faibles, donc des valeurs p plus élevées.
  2. Corrélation des régresseurs: vos régresseurs peuvent être liés les uns aux autres, mesurant effectivement quelque chose de similaire. Disons que votre modèle logit consiste à expliquer le statut sur le marché du travail (actif / non actif) en fonction de l'expérience et de l'âge. Individuellement, les deux variables sont positivement liées au statut, car les employés plus expérimentés / plus âgés (excluant les très vieux employés pour le bien de l'argument) trouvent plus facile de trouver un emploi que les diplômés récents. Maintenant, évidemment, les deux variables sont fortement liées, car vous devez être plus âgé pour avoir plus d'expérience. Par conséquent, les deux variables se «concurrencent» essentiellement pour expliquer le statut, ce qui peut, en particulier dans les petits échantillons, entraîner la «perte» des deux variables, car aucun des effets ne peut être suffisamment fort et suffisamment précisément estimé lors du contrôle de l'autre pour obtenir estimations importantes. Essentiellement, vous vous demandez: quel est l'effet positif d'une autre année d'expérience lorsque vous maintenez l'âge constant? Il peut y avoir très peu ou pas d'employés dans votre ensemble de données pour répondre à cette question, donc l'effet sera estimé de manière imprécise, conduisant à de grandes valeurs de p.

  3. Modèles mal spécifiés: la théorie sous-jacente des statistiques t / valeurs p requiert que vous estimiez un modèle correctement spécifié. Maintenant, si vous ne régressez que sur un seul prédicteur, il est fort probable que ce modèle univarié souffre d'un biais variable omis. Par conséquent, tous les paris sont désactivés sur le comportement des valeurs p. Fondamentalement, vous devez faire attention à leur faire confiance lorsque votre modèle n'est pas correct.

Christoph Hanck
la source
Merci pour votre réponse complète et rapide. J'essaierai d'abord d'éliminer toute multicolinéarité. J'ai effectué des corrélations entre les variables et en ai trouvé quelques-unes, et j'essaierai d'exécuter des facteurs d'inflation de la variance, car j'ai entendu dire que c'était aussi un bon moyen de vérifier cela. S'il s'avère que ce n'est qu'un problème de degré de liberté, puis-je faire quelque chose à ce sujet? Je peux expliquer que cela se produit, mais cela semble compromettre l'intégrité de la régression si la signification diminue si sévèrement.
Sam O'Brien
3
@ SamO'Brien: Notez que si votre objectif est vraiment ce que vous avez dit qu'il était - "d'essayer de déterminer" quelles variables indépendantes peuvent potentiellement provoquer une réponse "-, en ignorant certaines simplement parce qu'elles sont corrélées avec d'autres pour" éliminer toute multicolinéarité " ne va pas aider à y parvenir
Scortchi - Réintégrer Monica
1
Est-il possible de l'avoir dans l'autre sens, c'est-à-dire le même prédicteur non significatif en régression simple mais significatif en régression multiple?
gkcn
8

Il n'y a aucune raison particulière pour que cela ne se produise pas . La régression multiple pose une question différente de la régression simple. En particulier, la régression multiple (dans ce cas, la régression logistique multiple) pose des questions sur la relation entre les variables dépendantes et les variables indépendantes, en contrôlant les autres variables indépendantes. Une régression simple pose des questions sur la relation entre une variable dépendante et une variable (unique) indépendante.

Si vous ajoutez le contexte de votre étude (par exemple, quelles sont ces variables?), Il peut être possible de donner des réponses plus spécifiques. De plus, étant donné que les trois variables dans votre cas sont des dichotomies, vous pouvez nous présenter les données assez facilement ... il n'y a que 8 lignes nécessaires pour résumer cela:

DVIV1IV2CountAAA10AAB20

etc.

Peter Flom - Réintégrer Monica
la source