D'accord, j'essaie donc de comprendre la régression linéaire. J'ai un ensemble de données et tout semble assez bien, mais je suis confus. Voici mon modèle de résumé linéaire:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.2068621 0.0247002 8.375 4.13e-09 ***
temp 0.0031074 0.0004779 6.502 4.79e-07 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.04226 on 28 degrees of freedom
Multiple R-squared: 0.6016, Adjusted R-squared: 0.5874
F-statistic: 42.28 on 1 and 28 DF, p-value: 4.789e-07
ainsi, la valeur de p est vraiment faible, ce qui signifie qu'il est très peu probable d'obtenir la corrélation entre x, y juste par hasard. Si je le trace et puis dessine la ligne de régression, cela ressemble à ceci: http://s14.directupload.net/images/120923/l83eellv.png (Je l'avais en tant qu'image mais je suis - en tant que nouvel utilisateur - actuellement pas autorisé à l'afficher) Lignes bleues = intervalle de confiance Lignes vertes = intervalle de prédiction
Maintenant, beaucoup de points ne tombent pas dans l'intervalle de confiance, pourquoi cela arriverait-il? Je pense qu'aucun des points de données ne tombe sur la ligne de régression b / c, ils sont juste assez éloignés les uns des autres, mais ce dont je ne suis pas sûr: est-ce un vrai problème? Ils sont toujours autour de la ligne de régression et vous pouvez totalement voir un motif. Mais est-ce suffisant? J'essaie de comprendre, mais je continue de me poser les mêmes questions encore et encore.
Ce à quoi j'ai pensé jusqu'à présent: L'intervalle de confiance dit que si vous calculez encore et encore les IC, dans 95% des cas, la vraie moyenne tombe dans l'IC. Donc: ce n'est pas un problème que les dp n'y tombent pas, car ce ne sont pas vraiment les moyens. L'intervalle de prédiction, d'autre part, dit que si vous calculez les PI encore et encore, dans 95% des cas, la vraie VALEUR tombe dans l'intervalle. Donc, il est assez important d'avoir les points dedans (ce que j'ai). Ensuite, j'ai lu que le PI doit toujours avoir une plage plus large que le CI. Pourquoi donc? Voici ce que j'ai fait:
conf<-predict(fm, interval=c("confidence"))
prd<-predict(fm, interval=c("prediction"))
puis je l'ai tracé par:
matlines(temp,conf[,c("lwr","upr")], col="red")
matlines(temp,prd[,c("lwr","upr")], col="red")
Maintenant, si je calcule CI et PI pour des données supplémentaires, peu importe la largeur que je choisis, j'obtiens exactement les mêmes lignes que ci-dessus. Je ne peux pas comprendre. Qu'est-ce que ça veut dire? Ce serait alors:
conf<-predict(fm,newdata=data.frame(x=newx), interval=c("confidence"))
prd<-predict(fm,newdata=data.frame(x=newx), interval=c("prediction"))
pour les nouveaux x j'ai choisi différentes séquences. Si la séquence a un nombre d'observations différent de celui des variables de ma régression, je reçois un avertissement. Pourquoi serait-ce?
la source