Intervalles de confiance et de prédiction du modèle de régression linéaire

9

D'accord, j'essaie donc de comprendre la régression linéaire. J'ai un ensemble de données et tout semble assez bien, mais je suis confus. Voici mon modèle de résumé linéaire:

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) 0.2068621  0.0247002   8.375 4.13e-09 ***
temp        0.0031074  0.0004779   6.502 4.79e-07 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1 

Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874 
F-statistic: 42.28 on 1 and 28 DF,  p-value: 4.789e-07 

ainsi, la valeur de p est vraiment faible, ce qui signifie qu'il est très peu probable d'obtenir la corrélation entre x, y juste par hasard. Si je le trace et puis dessine la ligne de régression, cela ressemble à ceci: http://s14.directupload.net/images/120923/l83eellv.png (Je l'avais en tant qu'image mais je suis - en tant que nouvel utilisateur - actuellement pas autorisé à l'afficher) Lignes bleues = intervalle de confiance Lignes vertes = intervalle de prédiction

Maintenant, beaucoup de points ne tombent pas dans l'intervalle de confiance, pourquoi cela arriverait-il? Je pense qu'aucun des points de données ne tombe sur la ligne de régression b / c, ils sont juste assez éloignés les uns des autres, mais ce dont je ne suis pas sûr: est-ce un vrai problème? Ils sont toujours autour de la ligne de régression et vous pouvez totalement voir un motif. Mais est-ce suffisant? J'essaie de comprendre, mais je continue de me poser les mêmes questions encore et encore.

Ce à quoi j'ai pensé jusqu'à présent: L'intervalle de confiance dit que si vous calculez encore et encore les IC, dans 95% des cas, la vraie moyenne tombe dans l'IC. Donc: ce n'est pas un problème que les dp n'y tombent pas, car ce ne sont pas vraiment les moyens. L'intervalle de prédiction, d'autre part, dit que si vous calculez les PI encore et encore, dans 95% des cas, la vraie VALEUR tombe dans l'intervalle. Donc, il est assez important d'avoir les points dedans (ce que j'ai). Ensuite, j'ai lu que le PI doit toujours avoir une plage plus large que le CI. Pourquoi donc? Voici ce que j'ai fait:

conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))

puis je l'ai tracé par:

matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")

Maintenant, si je calcule CI et PI pour des données supplémentaires, peu importe la largeur que je choisis, j'obtiens exactement les mêmes lignes que ci-dessus. Je ne peux pas comprendre. Qu'est-ce que ça veut dire? Ce serait alors:

conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))

pour les nouveaux x j'ai choisi différentes séquences. Si la séquence a un nombre d'observations différent de celui des variables de ma régression, je reçois un avertissement. Pourquoi serait-ce?

Lisa
la source

Réponses:

3

Je comprends certaines de vos questions mais d'autres ne sont pas claires. Permettez-moi de répondre et d'énoncer certains faits et cela éclaircira peut-être toute votre confusion.

L'ajustement que vous avez est remarquablement bon. Les intervalles de confiance devraient être très serrés. Il y a deux types de régions de confiance qui peuvent être considérées, la région bsimultanoues qui est destinée à couvrir toute la vraie fonction de régression avec le niveau de confiance donné.

Les autres qui vous intéressent sont les intervalles de confiance pour les points de régression ajustés. Ils sont uniquement destinés à couvrir la valeur ajustée de y à la ou aux valeurs données de la ou des covariables. Ils ne sont pas destinés à couvrir les valeurs y à d'autres valeurs des covariables. En fait, si les intervalles sont très serrés comme ils devraient l'être dans votre cas, ils ne couvriront pas beaucoup de points de données si vous vous éloignez de la ou des valeurs fixes des covariables. Pour ce type de couverture, vous devez obtenir les courbes de confiance simultanées (courbes de limite supérieure et inférieure).

Maintenant, il est vrai que si vous prédisez ay à une valeur donnée d'une covariable et que vous voulez le même niveau de confiance pour l'intervalle de prédiction que vous avez utilisé pour l'intervalle de confiance pour y à la valeur donnée de la covariable, l'intervalle sera plus large. La raison en est que le modèle vous indique qu'il y aura une variabilité supplémentaire car un nouveau y aura sa propre erreur indépendante qui doit être prise en compte dans l'intervalle. Cette composante d'erreur n'entre pas dans les estimations basées sur les données utilisées dans l'ajustement.

Michael R. Chernick
la source
Je suis désolé, je ne comprends toujours pas très bien. Vous avez expliqué 2 types d'intervalle de confiance, mais lesquels voulez-vous dire lorsque vous dites "ceux que je regarde"? b / c J'ai tracé à la fois la prédiction et l'intervalle de confiance, et j'ai du mal à comprendre la différence. De plus, j'ai ajouté quelques commandes R à mon article précédent pour clarifier ce que je faisais
Lisa
Les courbes ne précisent pas si les bandes de confiance sont obtenues ou non en construisant des courbes de confiance simultanées ou simplement en reliant en douceur les intervalles de confiance individuels. S'ils étaient simultanés, vous ne verriez pas autant de points ajustés à l'extérieur de la courbe. Mais comme je l'ai souligné, cela peut arriver avec les intervalles individuels. Je n'ai pas encore regardé l'édition qui inclut le code R.
Michael R. Chernick
Je ne connais pas assez bien R pour répondre aux questions spécifiques de R. Ce que je ne sais pas qu'un expert R peut vous dire, c'est si les courbes de confiance et les courbes de prédiction relient les intervalles de confiance individuels ou génèrent les courbes simultanées. Votre code fait-il également ce que vous avez l'intention de faire?
Michael R. Chernick