J'essaie de comprendre l'origine de la forme incurvée des bandes de confiance associées à une régression linéaire MLS et son lien avec les intervalles de confiance des paramètres de régression (pente et intersection), par exemple (avec R):
require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)
Il semble que la bande soit liée aux limites des lignes calculées avec l'interception à 2,5% et la pente de 97,5%, ainsi qu'avec l'interception à 97,5% et la pente de 2,5% (bien que pas tout à fait):
xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))
Ce que je ne comprends pas, ce sont deux choses:
- Qu'en est-il de la combinaison de la pente de 2,5% et de l'interception de 2,5% ainsi que de la pente de 97,5% et de l'interception de 97,5%? Cela donne des lignes qui sont clairement en dehors de la bande tracée ci-dessus. Peut-être que je ne comprends pas la signification d'un intervalle de confiance, mais si dans 95% des cas, mes estimations se situent dans l'intervalle de confiance, cela semble être un résultat possible?
- Qu'est-ce qui détermine la distance minimale entre les limites supérieure et inférieure (c'est-à-dire près du point où les deux lignes ajoutées au-dessus de l'interception)?
Je suppose que les deux questions se posent parce que je ne sais pas / ne comprends pas comment ces bandes sont réellement calculées.
Comment puis-je calculer les limites supérieure et inférieure en utilisant les intervalles de confiance des paramètres de régression (sans s'appuyer sur Predict () ou une fonction similaire, c'est-à-dire à la main)? J'ai essayé de déchiffrer la fonction Predict.lm dans R, mais le codage me dépasse. J'apprécierais toute indication de littérature pertinente ou explication appropriée pour les débutants en statistiques.
Merci.
Réponses:
De plus, vous ne comprenez pas les intervalles de confiance: "si, dans 95% des cas, mes estimations se situent dans les limites de l'intervalle de confiance, celles-ci semblent constituer un résultat possible?" Les intervalles de confiance ne «contiennent pas 95% des estimations», mais pour chaque échantillon séparéβ^ α^
la source
Bonne question. Il est important de comprendre ces concepts et ils ne sont pas simples.
Lorsque nous combinons tous les intervalles de confiance, pour chaque x possible, nous obtenons les bandes grises que vous voyez dans la sortie.
Cela signifie fonctionnellement que nous sommes à 95% sûrs que la vraie ligne de régression se situe quelque part dans cette zone grise.
Comme les bandes de confiance sont calculées en utilisant les intervalles de confiance à 95% pour chaque point individuel, il est très étroitement lié à l'intervalle de confiance à 95%. En fait, à x = 0, les bords de la zone grise coïncideront exactement avec l'IC de 95% pour l'interception, car c'est ainsi que nous avons généré les bandes de confiance. C'est pourquoi les lignes que vous avez ajoutées plus haut touchent le bord de la bande grise vers la gauche.
Cependant, la pente est un peu différente. Comme vous l'avez vu plus haut, cela contribue aux limites, mais la pente et l'interception ne sont pas séparables dans une régression linéaire. Donc, vous ne pouvez pas vraiment dire: "Et si l’interception était au minimum de la plage de CI et que la pente était aussi au minimum?" Cette ligne générerait des points qui sont bien en dehors de nos IC à 95% pour beaucoup de x. Cela signifie que nous sommes à 95% confiants que ce n'est pas notre véritable régression.
Il existe un powerpoint décent qui peut vous aider à visualiser certaines de ces choses: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf
la source