Pourquoi est-il possible d'obtenir une statistique F significative (p <0,001) mais des tests t régresseurs non significatifs?

70

Dans une régression linéaire multiple, pourquoi est-il possible d'avoir une statistique F hautement significative (p <0,001) mais d'avoir des valeurs p très élevées sur tous les tests t de la régression?

Dans mon modèle, il y a 10 régresseurs. L'un a une valeur p de 0,1 et le reste est supérieur à 0,9


Pour résoudre ce problème, voir la question suivante .

Λίας
la source
2
La constante est-elle également insignifiante? Combien de cas sont impliqués? Combien de variables?
whuber
Comment la multicolinéarité a-t-elle été diagnostiquée? Il existe de nombreuses méthodes, certaines étant plus informatives que d’autres. Plus vous nous en dites, meilleure sera la réponse de la communauté.
StasK
3
Cette question est devenue une FAQ. Certaines des réponses ici ont été fusionnées à partir de threads sensiblement similaires.
whuber
J'ai eu le même problème et aucune des réponses ci-dessus pourrait m'aider. Maintenant, je connais la réponse (du moins à mon problème): la valeur F du modèle 2 peut être significative, car vous avez la même «constante» (variable) que dans le modèle 1 (la valeur F étant également significative). Vous devez consulter le tableau intitulé «Résumé du modèle» dans la colonne «Sig. F Change 'pour voir si le changement de R au carré est significatif (pour le modèle 2). Si celui-ci est significatif, les valeurs b doivent également l'être. Vous pouvez totalement ignorer la valeur F.

Réponses:

53

Comme le mentionne Rob, cela se produit lorsque vous avez des variables fortement corrélées. L’exemple type que j’utilise consiste à prévoir le poids à partir de la pointure Vous pouvez également prédire le poids avec la pointure droite ou gauche. Mais ensemble, ça ne marche pas.

Bref exemple de simulation

RSS = 3:10 #Right shoe size
LSS = rnorm(RSS, RSS, 0.1) #Left shoe size - similar to RSS
cor(LSS, RSS) #correlation ~ 0.99

weights = 120 + rnorm(RSS, 10*RSS, 10)

##Fit a joint model
m = lm(weights ~ LSS + RSS)

##F-value is very small, but neither LSS or RSS are significant
summary(m)

##Fitting RSS or LSS separately gives a significant result. 
summary(lm(weights ~ LSS))
csgillespie
la source
9
Il est intéressant et important de noter que les deux modèles prédisent également, dans ce cas. Les fortes corrélations entre les prédicteurs ne constituent pas nécessairement un problème de prédiction. La multicolinéarité n’est un problème que lorsque 1) les analystes essaient d’interpréter de manière inappropriée les coefficients de régression multiple; 2) le modèle n'est pas estimable; et 3) les SE sont gonflés et les coefficients instables.
Brett
Je comprends que les deux variables sont fortement corrélées l'une avec l'autre. Le résultat du test t est donc non significatif, alors que le résultat du test F est significatif. Mais comment ça se fait? Je veux dire, quelle est la raison sous-jacente à ce fait?
Yue86231
105

Cela nécessite très peu de corrélation entre les variables indépendantes.

Pour voir pourquoi, essayez ce qui suit:

  • (x1,x2,,x10)

  • yi=(xi+xi+1)/2i=1,2,,9yi

  • w=x1+x2++x10w=2(y1+y3+y5+y7+y9)

  • wz=w+εεN(0,6)zxiyi

yiz

zyi

Matrice à nuage de points

yiyj1/2|ij|=10

zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  9,    40) =    4.57
       Model |  1684.15999     9  187.128887           Prob > F      =  0.0003
    Residual |  1636.70545    40  40.9176363           R-squared     =  0.5071
-------------+------------------------------           Adj R-squared =  0.3963
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3967

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.184007   1.264074     1.73   0.092    -.3707815    4.738795
          y2 |   1.537829   1.809436     0.85   0.400    -2.119178    5.194837
          y3 |   2.621185   2.140416     1.22   0.228    -1.704757    6.947127
          y4 |   .6024704   2.176045     0.28   0.783    -3.795481    5.000421
          y5 |   1.692758   2.196725     0.77   0.445    -2.746989    6.132506
          y6 |   .0290429   2.094395     0.01   0.989    -4.203888    4.261974
          y7 |   .7794273   2.197227     0.35   0.725    -3.661333    5.220188
          y8 |  -2.485206    2.19327    -1.13   0.264     -6.91797    1.947558
          y9 |   1.844671   1.744538     1.06   0.297    -1.681172    5.370514
       _cons |   .8498024   .9613522     0.88   0.382    -1.093163    2.792768
------------------------------------------------------------------------------

La statistique F est hautement significative, mais aucune des variables indépendantes ne l’est, même sans ajustement pour les neuf variables.

zyi

      Source |       SS       df       MS              Number of obs =      50
-------------+------------------------------           F(  5,    44) =    7.77
       Model |  1556.88498     5  311.376997           Prob > F      =  0.0000
    Residual |  1763.98046    44  40.0904649           R-squared     =  0.4688
-------------+------------------------------           Adj R-squared =  0.4085
       Total |  3320.86544    49  67.7727641           Root MSE      =  6.3317

------------------------------------------------------------------------------
           z |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
          y1 |   2.943948   .8138525     3.62   0.001     1.303736     4.58416
          y3 |   3.403871   1.080173     3.15   0.003     1.226925    5.580818
          y5 |   2.458887    .955118     2.57   0.013      .533973    4.383801
          y7 |  -.3859711   .9742503    -0.40   0.694    -2.349443    1.577501
          y9 |   .1298614   .9795983     0.13   0.895    -1.844389    2.104112
       _cons |   1.118512   .9241601     1.21   0.233    -.7440107    2.981034
------------------------------------------------------------------------------

Certaines de ces variables sont hautement significatives, même avec un ajustement de Bonferroni. (On peut dire beaucoup plus en regardant ces résultats, mais cela nous éloignerait du sujet principal.)

zy2,y4,y6,y8z

yi

Une conclusion que nous pouvons en tirer est que lorsque trop de variables sont incluses dans un modèle, elles peuvent masquer les plus importantes. Le premier signe en est la statistique F hautement significative globale accompagnée de tests t non significatifs pour les coefficients individuels. (Même lorsque certaines variables sont individuellement significatives, cela ne signifie pas automatiquement que les autres ne le sont pas. C'est l'un des défauts fondamentaux des stratégies de régression par étapes: elles sont victimes de ce problème de masquage.) Incidemment, les facteurs d'inflation de la variancedans la première régression, de 2,55 à 6,09 avec une moyenne de 4,79: juste à la limite du diagnostic de multicolinéarité selon les règles empiriques les plus conservatrices; bien en dessous du seuil selon d’autres règles (où 10 est une limite supérieure).

whuber
la source
5
Très bonne réponse. Un plus 1 de moi. J'aurais aimé en donner plus.
Michael Chernick
41

Multicolinéarité

  • R2
  • Bien entendu, la multicolinéarité ne constitue pas un seuil absolu. Les erreurs types sur les coefficients de régression augmenteront à mesure que les intercorrélations avec le prédicteur focal augmentent.

Plusieurs prédicteurs presque significatifs

  • Même si vous n’avez pas eu de multicolinéarité, vous pouvez toujours obtenir des prédicteurs non significatifs et un modèle global significatif si deux prédicteurs individuels ou plus sont proches de significatifs et, par conséquent, collectivement, la prédiction globale dépasse le seuil de signification statistique. Par exemple, en utilisant un alpha de 0,05, si vous aviez deux prédicteurs avec des valeurs p de 0,06 et 0,07, je ne serais pas surpris que le modèle global ait un p <0,05.
Jeromy Anglim
la source
Belle réponse concise. Pour ajouter à cela, je suggérerais de perturber les données (ou de supprimer un prédicteur) et de voir s'il y a un changement notable dans les coefficients de la régression. Par exemple, recherchez les changements de signe.
Mustafa S Eisa
38

Cela se produit lorsque les prédicteurs sont fortement corrélés. Imaginez une situation où il n'y a que deux prédicteurs avec une corrélation très élevée. Individuellement, ils sont également étroitement liés à la variable de réponse. Par conséquent, le test F a une valeur p faible (il indique que les prédicteurs pris ensemble sont très significatifs pour expliquer la variation de la variable de réponse). Mais le test t pour chaque prédicteur a une p-valeur élevée car après avoir tenu compte de l'effet de l'autre prédicteur, il ne reste plus grand chose à expliquer.

Rob Hyndman
la source
Salut Rob, désolé de te déranger. J'ai lu votre réponse (car je suis actuellement confronté à la question), mais je ne comprends pas ce que vous entendez par "en tenant compte de l'effet de l'autre prédicteur, il ne reste plus grand-chose à expliquer". Puis-je vous demander de m'expliquer cela? Merci beaucoup.
Yue86231
1
@ yue86231 Cela signifie que bien que nous ayons une valeur p pour chaque prédicteur, nous ne pouvons pas interpréter chaque valeur p séparément. Chaque test t de prédicteur peut uniquement montrer la signification d'une variable après avoir pris en compte la variance expliquée par toutes les autres variables. Les coefficients de régression linéaire et l'erreur type sont produits en même temps, pour ainsi dire, et les deux prédicteurs se réduisent mutuellement.
Robert Kubrick
11

X1N(0,1)X2=aX1+δY=bX1+cX2+ϵδϵX1N(0,1)

Cov(X2,Y)=E[(aX1+δ)(bX1+cX2+ϵ)]=E[(aX1+δ)({b+ac}X1+cδ+ϵ)]=a(b+ac)+c

a=1b=2c=1

Vous avez dit comprendre le problème des corrélations entre variables et de l'insignifiance de la régression; cela signifie probablement que vous avez été conditionné par de nombreuses mentions sur la multicolinéarité, mais que vous deviez améliorer votre compréhension de la géométrie des moindres carrés.

StasK
la source
10

Un mot clé à rechercher serait "colinéarité" ou "multicolinéarité". Cela peut être détecté à l'aide de diagnostics tels que les facteurs d'inflation de la variance (VIF) ou des méthodes décrites dans le manuel "Diagnostic de régression: identification des données d'influence et des sources de colinéarité" de Belsley, Kuh et Welsch. Les fichiers VIF sont beaucoup plus faciles à comprendre, mais ils ne peuvent pas gérer la colinéarité impliquant l'interception (c'est-à-dire des prédicteurs presque constants seuls ou en combinaison linéaire). Inversement, les diagnostics de BKW sont beaucoup moins intuitifs, mais ils peuvent gérer la colinéarité. L'interception.

S. Kolassa - Rétablir Monica
la source
9

La réponse que vous obtenez dépend de la question que vous posez. Outre les remarques déjà faites, les valeurs individuelles des paramètres F et les valeurs F globales du modèle répondent à des questions différentes et donnent donc des réponses différentes. J'ai vu cela se produire même lorsque les valeurs individuelles de F ne sont pas très proches de significatives, en particulier si le modèle a plus de 2 ou 3 IV. Je ne connais aucun moyen de combiner les valeurs-p individuelles et d'obtenir quelque chose de significatif, bien qu'il puisse y avoir un moyen.

Peter Flom - Rétablir Monica
la source
2
(-1) Oui, l’affiche originale indique qu’il a également été témoin de cette situation. La question était de savoir quelles sont exactement les causes de ce problème autres que la colinéarité, et je ne vois pas en quoi cela pourrait être une réponse.
Macro
4
@ Macro Le vote négatif semble un peu sévère, car il y a une observation utile et valable dans cette réponse: les tests de signification globale et de signification variable individuelle "répondent à des questions différentes". Certes, c'est qualitatif, mais pas plus que la première réponse avec beaucoup de votes positifs; et à cette réponse, il ajoute une intuition valable, ce qui en fait une amélioration par rapport à cette réponse.
whuber
1
Je n'ai jamais dit que cette réponse ne contenait ni des informations valables, ni une intuition. Si j'avais une bonne réponse à cette question, j'aurais déjà répondu - c'est un peu une question difficile - je disais seulement que cette réponse ne semblait pas répondre à la question dans le sens le plus large du terme.
Macro
9

Une autre chose à garder à l'esprit est que les tests sur les coefficients individuels supposent chacun que tous les autres prédicteurs sont dans le modèle. En d'autres termes, chaque prédicteur n'est pas significatif tant que tous les autres prédicteurs sont dans le modèle. Il doit exister une interaction ou une interdépendance entre deux ou plusieurs de vos prédicteurs.

Comme quelqu'un d'autre l'a demandé plus haut - comment avez-vous diagnostiqué un manque de multicolinéarité?

Dave Kincaid
la source
4

Une façon de comprendre cela est la géométrie des moindres carrés, comme le suggère @StasK.

Une autre consiste à comprendre que cela signifie que X est lié à Y lors du contrôle des autres variables, mais pas seul. Vous dites que X se rapporte à la variance unique en Y. C'est vrai. La variance unique en Y, cependant, diffère de la variance totale. Alors, quel écart les autres variables suppriment-elles?

Cela nous aiderait si vous pouviez nous dire vos variables.

Peter Flom - Rétablir Monica
la source