J'ai effectué une régression sur les comtés américains et je vérifie la colinéarité dans mes variables «indépendantes». Les diagnostics de régression de Belsley, Kuh et Welsch suggèrent d'examiner l'indice de condition et les proportions de décomposition de la variance:
library(perturb)
## colldiag(, scale=TRUE) for model with interaction
Condition
Index Variance Decomposition Proportions
(Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct inc09_10k:unins09
1 1.000 0.000 0.000 0.000 0.000 0.001 0.002 0.003 0.002 0.002 0.001 0.000
2 3.130 0.000 0.000 0.000 0.000 0.002 0.053 0.011 0.148 0.231 0.000 0.000
3 3.305 0.000 0.000 0.000 0.000 0.000 0.095 0.072 0.351 0.003 0.000 0.000
4 3.839 0.000 0.000 0.000 0.001 0.000 0.143 0.002 0.105 0.280 0.009 0.000
5 5.547 0.000 0.002 0.000 0.000 0.050 0.093 0.592 0.084 0.005 0.002 0.000
6 7.981 0.000 0.005 0.006 0.001 0.150 0.560 0.256 0.002 0.040 0.026 0.001
7 11.170 0.000 0.009 0.003 0.000 0.046 0.000 0.018 0.003 0.250 0.272 0.035
8 12.766 0.000 0.050 0.029 0.015 0.309 0.023 0.043 0.220 0.094 0.005 0.002
9 18.800 0.009 0.017 0.003 0.209 0.001 0.002 0.001 0.047 0.006 0.430 0.041
10 40.827 0.134 0.159 0.163 0.555 0.283 0.015 0.001 0.035 0.008 0.186 0.238
11 76.709 0.855 0.759 0.796 0.219 0.157 0.013 0.002 0.004 0.080 0.069 0.683
## colldiag(, scale=TRUE) for model without interaction
Condition
Index Variance Decomposition Proportions
(Intercept) inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct elderly09_pct
1 1.000 0.000 0.001 0.001 0.000 0.001 0.003 0.004 0.003 0.003 0.001
2 2.988 0.000 0.000 0.001 0.000 0.002 0.030 0.003 0.216 0.253 0.000
3 3.128 0.000 0.000 0.002 0.000 0.000 0.112 0.076 0.294 0.027 0.000
4 3.630 0.000 0.002 0.001 0.001 0.000 0.160 0.003 0.105 0.248 0.009
5 5.234 0.000 0.008 0.002 0.000 0.053 0.087 0.594 0.086 0.004 0.001
6 7.556 0.000 0.024 0.039 0.001 0.143 0.557 0.275 0.002 0.025 0.035
7 11.898 0.000 0.278 0.080 0.017 0.371 0.026 0.023 0.147 0.005 0.038
8 13.242 0.000 0.001 0.343 0.006 0.000 0.000 0.017 0.129 0.328 0.553
9 21.558 0.010 0.540 0.332 0.355 0.037 0.000 0.003 0.003 0.020 0.083
10 50.506 0.989 0.148 0.199 0.620 0.393 0.026 0.004 0.016 0.087 0.279
?HH::vif
suggère que les VIF> 5 sont problématiques:
library(HH)
## vif() for model with interaction
inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct
8.378646 16.329881 1.653584 2.744314 1.885095 1.471123 1.436229 1.789454
elderly09_pct inc09_10k:unins09
1.547234 11.590162
## vif() for model without interaction
inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct
1.859426 2.378138 1.628817 2.716702 1.882828 1.471102 1.404482 1.772352
elderly09_pct
1.545867
Alors que les diagnostics de régression de John Fox suggèrent de regarder la racine carrée du VIF:
library(car)
## sqrt(vif) for model with interaction
inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct
2.894589 4.041025 1.285917 1.656597 1.372987 1.212898 1.198428 1.337705
elderly09_pct inc09_10k:unins09
1.243879 3.404433
## sqrt(vif) for model without interaction
inc09_10k unins09 sqmi_log pop10_perSqmi_log phys_per100k nppa_per100k black10_pct hisp10_pct
1.363608 1.542121 1.276251 1.648242 1.372162 1.212890 1.185108 1.331297
elderly09_pct
1.243329
Dans les deux premiers cas (où une coupure claire est suggérée), le modèle n'est problématique que lorsque le terme d'interaction est inclus.
Le modèle avec le terme d'interaction a jusqu'à ce point été ma spécification préférée.
J'ai deux questions compte tenu de cette bizarrerie des données:
- Un terme d'interaction aggrave-t-il toujours la colinéarité des données?
- Étant donné que les deux variables sans le terme d'interaction ne sont pas supérieures au seuil, suis-je d'accord pour utiliser le modèle avec le terme d'interaction. Plus précisément, la raison pour laquelle je pense que cela pourrait être correct est que j'utilise la méthode de King, Tomz et Wittenberg (2000) pour interpréter les coefficients (modèle binomial négatif), où je tiens généralement les autres coefficients à la moyenne, puis interpréter ce qui arrive aux prédictions de ma variable dépendante lorsque je me déplace
inc09_10k
et me déplaceunins09
indépendamment et conjointement.
la source
>=
réponse +2 obtient une demi-prime si la prime n'est pas attribuée manuellement.J'ai trouvé les publications suivantes sur ce sujet utiles:
Robinson et Schumacker (2009): Effets d'interaction: centrage, facteur d'inflation de la variance et problèmes d'interprétation
"Les effets de la mise à l'échelle des prédicteurs sur les coefficients des équations de régression (solutions centrées par rapport aux solutions non centrées et effets d'interaction d'ordre supérieur (interactions à 3 voies; catégoriques par effets continus)) ont été réfléchis par Aiken et West (1991). Leur exemple illustre cette multicolinéarité considérable est introduit dans une équation de régression avec un terme d'interaction lorsque les variables ne sont pas centrées. »
Afshartous & Preston (2011): Résultats clés des modèles d'interaction avec centrage
«Les motivations à utiliser le centrage variable incluent une meilleure interprétabilité des coefficients et une instabilité numérique réduite pour l'estimation associée à la multicolinéarité.
Évidemment, Aiken et West (1991) couvrent également ce sujet, mais je n'ai pas leur livre.
la source