Je fais correspondre un modèle de régression linéaire multiple entre 4 variables catégoriques (avec 4 niveaux chacune) et une sortie numérique. Mon jeu de données a 43 observations.
La régression me donne les suivantes -values du -test pour chaque coefficient de pente: . Ainsi, le coefficient du quatrième prédicteur est significatif au niveau de confiance .
D'autre part, la régression me donne une valeur d'un test global de l'hypothèse nulle selon laquelle tous les coefficients de ma pente sont égaux à zéro. Pour mon ensemble de données, cette est .
Ma question: comment dois-je interpréter ces résultats? Quelle dois-je utiliser et pourquoi? Le coefficient de la 4ème variable est-il significativement différent de au niveau de confiance ?
Je l' ai vu une question connexe, et statistiques dans une régression , mais il y avait une situation inverse: haut t -test p -values et faible F -test p -value. Honnêtement, je ne comprends pas très bien pourquoi nous aurions besoin d'un test F en plus d'un test t pour voir si les coefficients de régression linéaire sont significativement différents de zéro.
Réponses:
Je ne suis pas sûr que ce soit la multicolinéarité qui se passe ici. Cela pourrait être le cas, mais d'après les informations fournies, je ne peux pas en conclure, et je ne veux pas commencer par là. Ma première hypothèse est qu'il pourrait s'agir d'un problème de comparaisons multiples. Autrement dit, si vous exécutez suffisamment de tests, quelque chose apparaîtra, même s'il n'y a rien.
L'un des problèmes auquel je m'attache, c'est que le problème des comparaisons multiples est toujours discuté en termes d'examen de nombreuses comparaisons par paires - par exemple, l'exécution de tests t sur chaque paire unique de niveaux. (Pour un traitement humoristique des comparaisons multiples, regardez ici .) Cela laisse aux gens l'impression que c'est le seul endroit où ce problème se présente. Mais ce n’est tout simplement pas vrai - le problème des comparaisons multiples se manifeste partout. Par exemple, si vous exécutez une régression avec 4 variables explicatives, les mêmes problèmes existent. Dans une expérience bien conçue, les intraveineuses peuvent être orthogonales, mais les gens s'inquiètent systématiquement d'utiliser des corrections de Bonferroni sur des ensembles de contrastes a priori orthogonaux et ne pensent pas à deux fois à une ANOVA factorielle. À mon avis, cela est incompatible.
Le test F global est ce qu'on appelle un test 'simultané'. Cela permet de vérifier si tous vos prédicteurs ne sont pas liés à la variable de réponse. Le test simultané offre une certaine protection contre le problème des comparaisons multiples sans devoir emprunter la voie de Bonferroni, qui perd de la puissance. Malheureusement, mon interprétation de ce que vous rapportez est que votre conclusion est nulle.
Plusieurs choses atténuent cette interprétation. Premièrement, avec seulement 43 données, vous n’avez certainement pas beaucoup de pouvoir. Il est tout à fait possible qu'il y ait un effet réel, mais vous ne pouvez simplement pas le résoudre sans plus de données. Deuxièmement, comme @andrea et @Dimitriy, je m'inquiète de l'opportunité de traiter les variables catégorielles à 4 niveaux comme des valeurs numériques. Cela pourrait ne pas être approprié et avoir plusieurs effets, notamment une diminution de votre capacité à détecter ce qui est réellement là. Enfin, je ne suis pas sûr que le test de signification soit aussi important que l’on croit. Unp de 11 est un peu bas; y a-t-il vraiment quelque chose qui se passe là-bas? peut être! qui sait? Il n'y a pas de «ligne brillante» à 0,05 qui démarque les effets réels de la simple apparence.
la source
Je voudrais suggérer que ce phénomène (d'un test global non significatif en dépit d'une variable individuelle significative) peut être compris comme une sorte "d'effet masquant" global et que, bien qu'il puisse vraisemblablement découler de variables explicatives multicolinéaires, il n'est pas nécessaire qu'il en soit ainsi. ça du tout. Il s'avère également que cela n'est pas dû non plus à de nombreux ajustements de comparaison. Ainsi, cette réponse ajoute certaines qualifications aux réponses déjà parues, ce qui suggère au contraire que la multicolinéarité ou les comparaisons multiples doivent être considérées comme les coupables.
Pour établir la plausibilité de ces assertions, générons une collection de variables parfaitement orthogonales - aussi non colinéaires que possible - et une variable dépendante qui est explicitement déterminée par le premier des explandes (plus une bonne quantité d’erreur aléatoire). indépendant de tout le reste). En
R
cela peut être fait (de manière reproductible, si vous souhaitez expérimenter) commeCe n'est pas important que les variables explicatives soient binaires; ce qui compte, c’est leur orthogonalité, que nous pouvons vérifier pour nous assurer que le code fonctionne comme prévu, ce qui peut être fait en inspectant leurs corrélations. En effet, la matrice de corrélation est intéressante : les faibles coefficients suggèrent qu’elle
y
n’a guère de lien avec les variables sauf la première (qui est inhérente à la conception) et les zéros hors diagonale confirment l’orthogonalité des variables explicatives:Lançons une série de régressions en utilisant uniquement la première variable, puis les deux premières, etc. Par souci de concision et de comparaison aisée, dans chacune d’elles, je ne montre que la ligne correspondant à la première variable et le test F global:
Regardez comment (a) la signification de la première variable change à peine, (a ') la première variable reste significative (p <0,05) même en tenant compte des comparaisons multiples ( par exemple , appliquer Bonferroni en multipliant la valeur nominale p par le nombre de variables explicatives), (b) le coefficient de la première variable change à peine, mais (c) la signification globale croît de façon exponentielle, augmentant rapidement à un niveau non significatif.
J'interprète cela comme démontrant que l' inclusion de variables explicatives largement indépendantes de la variable dépendante peut "masquer" la valeur p globale de la régression. Lorsque les nouvelles variables sont orthogonales aux variables existantes et à la variable dépendante, elles ne modifieront pas les valeurs p individuelles. (Les petits changements observés ici sont dus au fait que l'erreur aléatoire ajoutée
y
est, par accident, légèrement corrélée avec toutes les autres variables.) Une leçon à tirer de cela est que la parcimonie est précieuse : utiliser aussi peu de variables que nécessaire peut renforcer la signification de Les resultats.Je ne dis pas que cela se produit nécessairement pour l'ensemble de données de la question, à propos de laquelle peu de choses ont été divulguées. Mais savoir que cet effet de masquage peut se produire devrait éclairer notre interprétation des résultats ainsi que nos stratégies de sélection de variables et de construction de modèles.
la source
rnorm(2^p, sd=2)
, veuillez noter que le premier argument est le nombre de termes, pas la moyenne. La moyenne par défaut est zéro et n'a donc pas été explicitement spécifiée.rnorm()
Cela arrive souvent lorsque vous avez un degré élevé de colinéarité parmi vos variables explicatives. L'ANOVA F est un test conjoint qui indique que tous les régresseurs sont conjointement non informatifs. Lorsque vos X contiennent des informations similaires, le modèle ne peut pas attribuer le pouvoir explicatif à un régresseur ou à un autre, mais leur combinaison peut expliquer en grande partie la variation de la variable de réponse.
la source