Comprendre la forme et le calcul des bandes de confiance dans la régression linéaire

33

J'essaie de comprendre l'origine de la forme incurvée des bandes de confiance associées à une régression linéaire MLS et son lien avec les intervalles de confiance des paramètres de régression (pente et intersection), par exemple (avec R):

require(visreg)
fit <- lm(Ozone ~ Solar.R,data=airquality)
visreg(fit)

entrez la description de l'image ici

Il semble que la bande soit liée aux limites des lignes calculées avec l'interception à 2,5% et la pente de 97,5%, ainsi qu'avec l'interception à 97,5% et la pente de 2,5% (bien que pas tout à fait):

xnew <- seq(0,400)
int <- confint(fit)
lines(xnew, (int[1,2]+int[2,1]*xnew))
lines(xnew, (int[1,1]+int[2,2]*xnew))

entrez la description de l'image ici

Ce que je ne comprends pas, ce sont deux choses:

  1. Qu'en est-il de la combinaison de la pente de 2,5% et de l'interception de 2,5% ainsi que de la pente de 97,5% et de l'interception de 97,5%? Cela donne des lignes qui sont clairement en dehors de la bande tracée ci-dessus. Peut-être que je ne comprends pas la signification d'un intervalle de confiance, mais si dans 95% des cas, mes estimations se situent dans l'intervalle de confiance, cela semble être un résultat possible?
  2. Qu'est-ce qui détermine la distance minimale entre les limites supérieure et inférieure (c'est-à-dire près du point où les deux lignes ajoutées au-dessus de l'interception)?

Je suppose que les deux questions se posent parce que je ne sais pas / ne comprends pas comment ces bandes sont réellement calculées.

Comment puis-je calculer les limites supérieure et inférieure en utilisant les intervalles de confiance des paramètres de régression (sans s'appuyer sur Predict () ou une fonction similaire, c'est-à-dire à la main)? J'ai essayé de déchiffrer la fonction Predict.lm dans R, mais le codage me dépasse. J'apprécierais toute indication de littérature pertinente ou explication appropriée pour les débutants en statistiques.

Merci.

David
la source
4
Vous avez deux bonnes réponses ci-dessous. Si vous souhaitez davantage d’informations, vous pouvez lire ma réponse ici: Intervalle de prédiction par régression linéaire , qui concerne les intervalles de prédiction, mais l’idée est très similaire.
Gay - Rétablir Monica
2
Il y a une explication intuitive détaillée donnée dans cet article: Forme de l'intervalle de confiance pour les valeurs prédites dans la régression linéaire
Glen_b -Reinstate Monica
TA pour les réponses utiles et les excellents liens.
David
veuillez consulter: stats.stackexchange.com/a/397504/144543
ouranos

Réponses:

19

XsY^X

sY^X=sY|X1n+(XX¯)2i=1n(XiX¯)2

sY|X

sY|X=i=1n(YiY^)2n2

Y^±tν=n2,α/2sY^

YX

De plus, vous ne comprenez pas les intervalles de confiance: "si, dans 95% des cas, mes estimations se situent dans les limites de l'intervalle de confiance, celles-ci semblent constituer un résultat possible?" Les intervalles de confiance ne «contiennent pas 95% des estimations», mais pour chaque échantillon séparéβ^α^

Alexis
la source
1
Existe-t-il un manuel expliquant d'où proviennent ces formules?
Michael Goerz
1
@MichaelGoerz Tout manuel d'introduction à la statistique, à la biostatistique, à l'économétrie, etc., qui traite de la régression linéaire par la méthode des moindres carrés ordinaires.
Alexis le
J'ai Wasserman - Toutes les statistiques, James et al - Une introduction à l'apprentissage statistique, et Hastie et al. - Les éléments de l’apprentissage statistique. Je n'ai pas été capable de trouver les équations pour les bandes de confiance de la régression linéaire dans aucune d'elles. Avez-vous un numéro de chapitre / eq pour l'un de ces ouvrages, ou un autre livre largement disponible?
Michael Goerz
2
Aucun des livres que vous mentionnez n'est le genre de livres dont parle Alexis. Le livre de Fox sur la régression appliquée l'a si je me souviens bien.
Glen_b -Reinstate Monica
1
@MichaelGoerz Tout comme Pagano, M. et Gauvreau, K. (2000). Principes de biostatistique . Duxbury Press, Pacific Grove, Californie, 2e édition et Glantz, SA (2011). amorce de biostatistique . McGraw-Hill Medical, New York, NY, 7ème édition, même s'il ne s'agit pas de textes spécifiques à la régression.
Alexis
16

Bonne question. Il est important de comprendre ces concepts et ils ne sont pas simples.

y¯y¯y¯

Lorsque nous combinons tous les intervalles de confiance, pour chaque x possible, nous obtenons les bandes grises que vous voyez dans la sortie.

Cela signifie fonctionnellement que nous sommes à 95% sûrs que la vraie ligne de régression se situe quelque part dans cette zone grise.

Comme les bandes de confiance sont calculées en utilisant les intervalles de confiance à 95% pour chaque point individuel, il est très étroitement lié à l'intervalle de confiance à 95%. En fait, à x = 0, les bords de la zone grise coïncideront exactement avec l'IC de 95% pour l'interception, car c'est ainsi que nous avons généré les bandes de confiance. C'est pourquoi les lignes que vous avez ajoutées plus haut touchent le bord de la bande grise vers la gauche.

Cependant, la pente est un peu différente. Comme vous l'avez vu plus haut, cela contribue aux limites, mais la pente et l'interception ne sont pas séparables dans une régression linéaire. Donc, vous ne pouvez pas vraiment dire: "Et si l’interception était au minimum de la plage de CI et que la pente était aussi au minimum?" Cette ligne générerait des points qui sont bien en dehors de nos IC à 95% pour beaucoup de x. Cela signifie que nous sommes à 95% confiants que ce n'est pas notre véritable régression.

x¯sy^x(xx¯)x=x¯ cette valeur est égale à zéro, l'erreur type est donc plus petite.

Il existe un powerpoint décent qui peut vous aider à visualiser certaines de ces choses: http://www.stat.duke.edu/~tjl13/s101/slides/unit6lec3H.pdf

Duncan
la source
2
Je pense que je l'ai corrigé - remplacé le yhats avec ybars. Est-ce plus correct? Je bousille toujours yhat.
Duncan
Ta. Une chose qui reste incertaine pour moi est de savoir comment rendre cohérentes les deux affirmations suivantes: "Cela signifie fonctionnellement que nous sommes à 95% sûrs que la vraie ligne de régression se situe quelque part dans cette zone grise." vs "[...] les intervalles de confiance concernant l'interception et la pente sont encore d'autres quantités." Si la première affirmation est correcte, il doit exister une relation (mathématique?) Entre les CI d'interception et de pente et la bande tracée ci-dessus? Je suppose que cela se rapporte à une partie de ma question: Comment puis-je calculer (si possible) la bande ci-dessus à l’aide des CI de pente et d’interception?
David
1
x¯
Bon post compréhensible et un bon lien! +1
theecologiste forestier