Dans une régression linéaire multiple, pourquoi est-il possible d'avoir une statistique F hautement significative (p <0,001) mais d'avoir des valeurs p très élevées sur tous les tests t de la régression?
Dans mon modèle, il y a 10 régresseurs. L'un a une valeur p de 0,1 et le reste est supérieur à 0,9
Pour résoudre ce problème, voir la question suivante .
Réponses:
Comme le mentionne Rob, cela se produit lorsque vous avez des variables fortement corrélées. L’exemple type que j’utilise consiste à prévoir le poids à partir de la pointure Vous pouvez également prédire le poids avec la pointure droite ou gauche. Mais ensemble, ça ne marche pas.
Bref exemple de simulation
la source
Cela nécessite très peu de corrélation entre les variables indépendantes.
Pour voir pourquoi, essayez ce qui suit:
La statistique F est hautement significative, mais aucune des variables indépendantes ne l’est, même sans ajustement pour les neuf variables.
Certaines de ces variables sont hautement significatives, même avec un ajustement de Bonferroni. (On peut dire beaucoup plus en regardant ces résultats, mais cela nous éloignerait du sujet principal.)
Une conclusion que nous pouvons en tirer est que lorsque trop de variables sont incluses dans un modèle, elles peuvent masquer les plus importantes. Le premier signe en est la statistique F hautement significative globale accompagnée de tests t non significatifs pour les coefficients individuels. (Même lorsque certaines variables sont individuellement significatives, cela ne signifie pas automatiquement que les autres ne le sont pas. C'est l'un des défauts fondamentaux des stratégies de régression par étapes: elles sont victimes de ce problème de masquage.) Incidemment, les facteurs d'inflation de la variancedans la première régression, de 2,55 à 6,09 avec une moyenne de 4,79: juste à la limite du diagnostic de multicolinéarité selon les règles empiriques les plus conservatrices; bien en dessous du seuil selon d’autres règles (où 10 est une limite supérieure).
la source
Multicolinéarité
Plusieurs prédicteurs presque significatifs
la source
Cela se produit lorsque les prédicteurs sont fortement corrélés. Imaginez une situation où il n'y a que deux prédicteurs avec une corrélation très élevée. Individuellement, ils sont également étroitement liés à la variable de réponse. Par conséquent, le test F a une valeur p faible (il indique que les prédicteurs pris ensemble sont très significatifs pour expliquer la variation de la variable de réponse). Mais le test t pour chaque prédicteur a une p-valeur élevée car après avoir tenu compte de l'effet de l'autre prédicteur, il ne reste plus grand chose à expliquer.
la source
Vous avez dit comprendre le problème des corrélations entre variables et de l'insignifiance de la régression; cela signifie probablement que vous avez été conditionné par de nombreuses mentions sur la multicolinéarité, mais que vous deviez améliorer votre compréhension de la géométrie des moindres carrés.
la source
Un mot clé à rechercher serait "colinéarité" ou "multicolinéarité". Cela peut être détecté à l'aide de diagnostics tels que les facteurs d'inflation de la variance (VIF) ou des méthodes décrites dans le manuel "Diagnostic de régression: identification des données d'influence et des sources de colinéarité" de Belsley, Kuh et Welsch. Les fichiers VIF sont beaucoup plus faciles à comprendre, mais ils ne peuvent pas gérer la colinéarité impliquant l'interception (c'est-à-dire des prédicteurs presque constants seuls ou en combinaison linéaire). Inversement, les diagnostics de BKW sont beaucoup moins intuitifs, mais ils peuvent gérer la colinéarité. L'interception.
la source
La réponse que vous obtenez dépend de la question que vous posez. Outre les remarques déjà faites, les valeurs individuelles des paramètres F et les valeurs F globales du modèle répondent à des questions différentes et donnent donc des réponses différentes. J'ai vu cela se produire même lorsque les valeurs individuelles de F ne sont pas très proches de significatives, en particulier si le modèle a plus de 2 ou 3 IV. Je ne connais aucun moyen de combiner les valeurs-p individuelles et d'obtenir quelque chose de significatif, bien qu'il puisse y avoir un moyen.
la source
Une autre chose à garder à l'esprit est que les tests sur les coefficients individuels supposent chacun que tous les autres prédicteurs sont dans le modèle. En d'autres termes, chaque prédicteur n'est pas significatif tant que tous les autres prédicteurs sont dans le modèle. Il doit exister une interaction ou une interdépendance entre deux ou plusieurs de vos prédicteurs.
Comme quelqu'un d'autre l'a demandé plus haut - comment avez-vous diagnostiqué un manque de multicolinéarité?
la source
Une façon de comprendre cela est la géométrie des moindres carrés, comme le suggère @StasK.
Une autre consiste à comprendre que cela signifie que X est lié à Y lors du contrôle des autres variables, mais pas seul. Vous dites que X se rapporte à la variance unique en Y. C'est vrai. La variance unique en Y, cependant, diffère de la variance totale. Alors, quel écart les autres variables suppriment-elles?
Cela nous aiderait si vous pouviez nous dire vos variables.
la source