Si la meilleure approximation linéaire (en utilisant les moindres carrés) de mes points de données est la ligne , comment puis-je calculer l'erreur d'approximation? Si je calcule l'écart type des différences entre les observations et les prédictions , puis-je dire plus tard qu'une valeur réelle (mais non observée) appartient à l'intervalle ( ) avec une probabilité ~ 68%, en supposant une distribution normale?e i = r e a l ( x i ) - ( m x i + b ) y r = r e a l ( x 0 ) [ y p - σ , y p + σ ] y p = m x 0 + b
Clarifier:
J'ai fait des observations concernant une fonction en l'évaluant en quelques points . J'adapte ces observations à une ligne . Pour que je n'ai pas observé, j'aimerais savoir quelle taille peut . En utilisant la méthode ci-dessus, est-il correct de dire que avec prob. ~ 68%?x i l ( x ) = m x + b x 0 f ( x 0 ) - l ( x 0 ) f ( x 0 ) ∈ [ l ( x 0 ) - σ , l ( x 0 ) + σ ]
Réponses:
@whuber vous a indiqué trois bonnes réponses, mais je peux peut-être encore écrire quelque chose de valeur. Si je comprends bien, votre question explicite est la suivante:
Compte tenu de mon modèley^je= m^Xje+ b^ (I préavis ajouté 'chapeaux') , et en supposant que mes résidus sont normalement distribués, , puis - je prédire qu'un encore réponse non observée, y n e w , avec une valeur de prédicteur connue, x n e w , va tomber dans l'intervalle ( y - σ e , y + σN( 0 , σ^2e) yn e w Xn e w , avec une probabilité de 68%?( y^- σe, y^+ σe)
Intuitivement, la réponse semble être «oui», mais la vraie réponse est peut - être . Ce sera le cas lorsque les paramètres (ie, & σ ) sont connus et sans erreur. Puisque vous avez estimé ces paramètres, nous devons tenir compte de leur incertitude.m , b , σ
Réfléchissons d'abord à l'écart type de vos résidus. Parce que cela est estimé à partir de vos données, il peut y avoir une erreur dans l'estimation. Par conséquent, la distribution que vous devez utiliser pour former votre intervalle de prédiction doit être une erreur , pas la normale. Cependant, comme le t converge rapidement vers la normale, cela est moins susceptible de poser problème en pratique.terreur df t
Alors, peut - on utiliser juste y nouvelle ± t ( 1 - α / 2 , df erreur ) s , au lieu de y nouveau ± z ( 1 - α / 2 ) s , et aller sur notre bonhomme de chemin? Malheureusement non. Le plus gros problème est qu'il ya une incertitude au sujet de votre estimation de la moyenne conditionnelle de la réponse à cet endroit en raison de l'incertitude dans vos estimations m & b . Ainsi,y^Nouveau± t( 1 - α / 2 , erreur df ) s y^Nouveau± z( 1 - α / 2 )s m^ b^ l'écart - type de vos prédictions doit intégrer plus que sErreur . Étant donné que les écarts ajoutent , la variance estimée des prévisions sera:
Notez que le « x » est indicé pour représenter la valeur spécifique pour la observation, et que le " s 2 " est corrigé en conséquence. Autrement dit, votre intervalle de prédiction dépend de l'emplacement de la nouvelle observation le long du x
Après avoir calculé la valeur correcte de cette manière, nous pouvons ensuite l'utiliser avec la distribution appropriée comme indiqué ci-dessus.t
la source