Pourquoi l'erreur-type de l'ordonnée à l'origine augmente-t-elle encore

13

L'erreur type du terme d'interception ( β 0 ) dans est donnée par où est la moyenne de la .β^0y=β1x+β0+ε

SE(β^0)2=σ2[1n+x¯2i=1n(xix¯)2]
x¯xi

D'après ce que je comprends, le SE quantifie votre incertitude - par exemple, dans 95% des échantillons, l'intervalle [β^02SE,β^0+2SE] contiendra le vrai β0 . Je n'arrive pas à comprendre comment le SE, une mesure de l'incertitude, augmente avec x¯ . Si je déplace simplement mes données, de sorte que x¯=0 , mon incertitude diminue? Cela semble déraisonnable.

Une interprétation analogue est - dans la version non centrée de mes données, β^0 correspond à ma prédiction à x=0 , tandis que dans les données centrées, β^0 correspond à ma prédiction à x=x¯ . Cela signifie-t-il alors que mon incertitude sur ma prédiction à x=0 est supérieure à mon incertitude sur ma prédiction à x=x¯ ? Cela semble également déraisonnable, l'erreur ϵ a la même variance pour toutes les valeurs de x , donc mon incertitude dans mes valeurs prédites devrait être la même pour tous les x .

Il y a des lacunes dans ma compréhension, j'en suis sûr. Quelqu'un pourrait-il m'aider à comprendre ce qui se passe?

elexhobby
la source
3
Avez-vous déjà régressé quelque chose contre une date? De nombreux systèmes informatiques commencent leurs dates dans un passé lointain, souvent il y a plus de 100 ou plus de 2000 ans. L'interception estime la valeur de vos données extrapolées en arrière à cette heure de début. Dans quelle mesure seriez-vous certain, par exemple, du produit intérieur brut de l'Irak au cours de l'année 0 après avoir régressé une série de données du 21e siècle?
whuber
Je suis d'accord, cela a du sens si vous y pensez de cette façon. Ceci, et la réponse de Gung, clarifient les choses.
elexhobby
2
Cette réponse donne une explication intuitive, avec des diagrammes) de son apparition, en exprimant la ligne ajustée en termes d'ajustement à la moyenne (la ligne ajustée passe par ) et montre pourquoi lorsque vous vous éloignez de (ce qui est dû à l'incertitude de la pente), la position de la ligne peut aller . x¯(x¯,y¯)x¯
Glen_b -Reinstate Monica

Réponses:

16

Parce que la droite de régression ajustée par les moindres carrés ordinaires passera nécessairement par la moyenne de vos données (c'est-à-dire, ) - au moins tant que vous ne supprimez pas l'ordonnée à l'origine - incertitude sur la valeur réelle de la pente n'a aucun effet sur la position verticale de la ligne à la moyenne de x ( par exemple, à y ˉ x ). Cela se traduit par moins d'incertitude verticale à ˉ x que vous ne vous éloignez de ˉ x . Si l'ordonnée à l'origine, où x = 0 est ˉ x(x¯,y¯)xy^x¯x¯x¯x=0x¯, cela minimisera votre incertitude sur la valeur réelle de . En termes mathématiques, cela se traduit par la plus petite valeur possible de l'erreur standard pour β 0 . β0β^0

Voici un exemple rapide dans R:

set.seed(1)                           # this makes the example exactly reproducible
x0      = rnorm(20, mean=0, sd=1)     # the mean of x varies from 0 to 10
x5      = rnorm(20, mean=5, sd=1)
x10     = rnorm(20, mean=10, sd=1)
y0      = 5 + 1*x0  + rnorm(20)       # all data come from the same  
y5      = 5 + 1*x5  + rnorm(20)       #  data generating process
y10     = 5 + 1*x10 + rnorm(20)
model0  = lm(y0~x0)                   # all models are fit the same way
model5  = lm(y5~x5)
model10 = lm(y10~x10)

entrez la description de l'image ici

Ce chiffre est un peu occupé, mais vous pouvez voir les données de plusieurs études différentes où la distribution de était plus proche ou plus éloignée de 0 . Les pentes diffèrent légèrement d'une étude à l'autre, mais sont largement similaires. (Avis ils vont tous à travers le X entouré d'un cercle que j'utilisé pour marquer ( ˉ x , ˉ y ) .) Néanmoins, l'incertitude quant à la valeur réelle de ces pentes provoque l'incertitude sur y pour étendre plus vous obtenez de ˉ x , ce qui signifie que le S E ( β 0 )x0(x¯,y¯)y^x¯SE(β^0)est très large pour les données qui ont été échantillonnées dans le voisinage de , et très étroite pour l'étude dans laquelle les données ont été échantillonnées près de x = 0 . x=10x=0


Modifier en réponse à un commentaire: Malheureusement, centrer vos données après que vous les avez ne vous aidera pas si vous voulez connaître la probable valeur à un certain x valeur x nouvelle . Au lieu de cela, vous devez centrer votre collecte de données sur le point qui vous intéresse en premier lieu. Pour mieux comprendre ces problèmes, il peut vous être utile de lire ma réponse ici: Intervalle de prédiction de régression linéaire . yxxnew

gung - Réintégrer Monica
la source
Donc, disons pour une raison quelconque, je suis le plus intéressé par la prédiction à la valeur . L'explication ci-dessus implique que je ne devrais pas centrer mes données (c'est-à-dire déplacer x pour que ˉ x = 0 ), mais plutôt les déplacer pour que ˉ x = x . Est-ce correct? x=xxx¯=0x¯=x
elexhobby
La formule générale a dans le numérateur au lieu de ˉ x 2 : aucun décalage n'est nécessaire. (xx¯)2x¯2
whuber
@elexhobby, j'ai ajouté quelques informations pour répondre à votre commentaire, vous voudrez peut-être aussi regarder le matériel lié. Faites-moi savoir si vous en avez encore besoin.
gung - Réintégrer Monica
Voici comment je comprends - je l' ai lu ailleurs que . Maintenantl'erreur dans la valeur prédite àxnewraison de cette incertitude de la pente estSE( β 1)(xnew- ˉ x )2. De plus, l'erreur due à l'incertitude sur la position verticale de la ligne estσ2SE(β^1)=σ2(xix¯)2xnewSE(β^1)(xnewx¯)2 . Combiner cesensemble, et nous obtenons l'incertitude de la valeur préditeraison deincertitude dans β 1et β 0estσ2σ2nβ^1β^0 . Corrige moi si je me trompe. σ2n+σ2(xnewx¯)2(xix¯)2
elexhobby
1
De plus, il est clair pourquoi l'erreur en position verticale est - nous savons que la ligne doit passer par ˉ y àx= ˉ x . Maintenant, ˉ y contient la moyenne deserreursniid, et donc aura SE égal àσ2σ2ny¯x=x¯y¯nσ2n