Intervalle de prédiction de régression linéaire

24

Si la meilleure approximation linéaire (en utilisant les moindres carrés) de mes points de données est la ligne , comment puis-je calculer l'erreur d'approximation? Si je calcule l'écart type des différences entre les observations et les prédictions , puis-je dire plus tard qu'une valeur réelle (mais non observée) appartient à l'intervalle ( ) avec une probabilité ~ 68%, en supposant une distribution normale?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + by=mX+beje=reunel(Xje)-(mXje+b)yr=reunel(X0)[yp-σ,yp+σ]yp=mX0+b

Clarifier:

J'ai fait des observations concernant une fonction en l'évaluant en quelques points . J'adapte ces observations à une ligne . Pour que je n'ai pas observé, j'aimerais savoir quelle taille peut . En utilisant la méthode ci-dessus, est-il correct de dire que avec prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) f ( x 0 ) [ l ( x 0 ) - σ , l ( x 0 ) + σ ]F(X)Xjel(X)=mX+bX0F(X0)-l(X0)F(X0)[l(X0)-σ,l(X0)+σ]

bmx
la source
1
Je pense que vous posez des questions sur les intervalles de prédiction. Notez cependant que vous utilisez " " au lieu de " y i ". Est-ce une faute de frappe? Nous ne prédisons pas x s. XjeyjeX
gung - Rétablir Monica
@gung: J'utilise pour désigner par exemple le temps, et y la valeur d'une variable à ce moment, donc y = f ( x ) signifie que j'ai fait une observation y au temps x . Je veux savoir dans quelle mesure les prédictions de la fonction d'ajustement peuvent être éloignées des valeurs réelles de y. Cela a-t-il du sens? La fonction r e a l ( x i ) renvoie la valeur "correcte" de y en x i , et mes points de données sont constitués de ( x i , r e a lXyy=F(X)yXreunel(Xje)yXje . (Xje,reunel(Xje))
bmx
1
Cela semble parfaitement raisonnable. Les parties sur lesquelles je me concentre sont, par exemple, " ", généralement nous pensons que les erreurs / résidus dans un modèle reg sont " e i = y i - ( m x i + b ) ". Le SD des résidus ne joue un rôle dans le calcul des intervalles de prédiction. C'est que " x ieje=reunel(Xje)-(mXje+b)eje=yje-(mXje+b)Xje"c'est bizarre pour moi; je me demande si c'est une faute de frappe, ou si vous posez des questions sur quelque chose que je ne reconnais pas.
gung - Reinstate Monica
Je pense que je vois; J'ai raté votre montage. Cela suggère que le système est parfaitement déterministe et si vous aviez accès à la fonction réelle sous-jacente, vous pourriez toujours prédire parfaitement sans erreur. Ce n'est pas la façon dont nous pensons généralement aux modèles reg. yje
gung - Réintégrer Monica
4
bmx, Il me semble que vous avez une idée claire de votre question et une bonne conscience de certains problèmes. Vous pourriez être intéressé à examiner trois sujets étroitement liés. stats.stackexchange.com/questions/17773 décrit les intervalles de prédiction en termes non techniques; stats.stackexchange.com/questions/26702 donne une description plus mathématique; et dans stats.stackexchange.com/questions/9131 , Rob Hyndman fournit la formule que vous recherchez. Si ceux-ci ne répondent pas entièrement à votre question, au moins ils peuvent vous donner une notation et un vocabulaire standard pour la clarifier.
whuber

Réponses:

30

@whuber vous a indiqué trois bonnes réponses, mais je peux peut-être encore écrire quelque chose de valeur. Si je comprends bien, votre question explicite est la suivante:

Compte tenu de mon modèle y^je=m^Xje+b^ (I préavis ajouté 'chapeaux') , et en supposant que mes résidus sont normalement distribués, , puis - je prédire qu'un encore réponse non observée, y n e w , avec une valeur de prédicteur connue, x n e w , va tomber dans l'intervalle ( y - σ e , y + σN(0,σ^e2)ynewXnew , avec une probabilité de 68%?(y^-σe,y^+σe)

Intuitivement, la réponse semble être «oui», mais la vraie réponse est peut - être . Ce sera le cas lorsque les paramètres (ie, & σ ) sont connus et sans erreur. Puisque vous avez estimé ces paramètres, nous devons tenir compte de leur incertitude. m,b,σ

Réfléchissons d'abord à l'écart type de vos résidus. Parce que cela est estimé à partir de vos données, il peut y avoir une erreur dans l'estimation. Par conséquent, la distribution que vous devez utiliser pour former votre intervalle de prédiction doit être une erreur , pas la normale. Cependant, comme le t converge rapidement vers la normale, cela est moins susceptible de poser problème en pratique. terreur dft

Alors, peut - on utiliser juste y nouvelle ± t ( 1 - α / 2 , df erreur ) s , au lieu de y nouveau ± z ( 1 - α / 2 ) s , et aller sur notre bonhomme de chemin? Malheureusement non. Le plus gros problème est qu'il ya une incertitude au sujet de votre estimation de la moyenne conditionnelle de la réponse à cet endroit en raison de l'incertitude dans vos estimations m & b . Ainsi,y^Nouveau±t(1-α/2, erreur df)sy^Nouveau±z(1-α/2)sm^b^l'écart - type de vos prédictions doit intégrer plus que sErreur . Étant donné que les écarts ajoutent , la variance estimée des prévisions sera: Notez que le « x » est indicé pour représenter la valeur spécifique pour la observation, et que le " s 2 " est corrigé en conséquence. Autrement dit, votre intervalle de prédiction dépend de l'emplacement de la nouvelle observation le long du x

sprédictions (nouveau)2=sErreur2+Var(m^XNouveau+b^)
Xs2Xaxe. L'écart type de vos prévisions peut être estimé plus facilement avec la formule suivante: Comme note complémentaire intéressante, nous pouvons déduire quelques faits sur les intervalles de prédiction à partir de cette équation. Tout d' abord,intervalles de prévision seront plus étroitedonnéesnous avions lorsque nous avons construit le modèle de prévision (car il y a moinsincertitude dansm&b). Deuxièmement, les prévisions seront plus précises si elles sont faites à la moyenne desvaleursx quevous avez utilisées pour développer votre modèle, car le numérateur pour le troisième terme sera0. La raison en est que dans des circonstances normales, il n'y a aucune incertitude sur la pente estimée à la moyenne dex
sprédictions (nouveau)=sErreur2(1+1N+(XNouveau-X¯)2(Xje-X¯)2)
m^b^X0X, seulement une certaine incertitude sur la véritable position verticale de la droite de régression. Ainsi, certaines leçons à tirer pour construire des modèles de prédiction sont: que plus de données sont utiles, non pas pour trouver la «signification», mais pour améliorer la précision des prédictions futures; et que vous devez centrer vos efforts de collecte de données sur l'intervalle où vous devrez faire des prédictions à l'avenir (pour minimiser ce numérateur), mais diffuser les observations aussi largement que possible à partir de ce centre (pour maximiser ce dénominateur).

Après avoir calculé la valeur correcte de cette manière, nous pouvons ensuite l'utiliser avec la distribution appropriée comme indiqué ci-dessus. t

gung - Réintégrer Monica
la source