L'erreur type du terme d'interception ( β 0 ) dans est donnée par où est la moyenne de la .
D'après ce que je comprends, le SE quantifie votre incertitude - par exemple, dans 95% des échantillons, l'intervalle contiendra le vrai . Je n'arrive pas à comprendre comment le SE, une mesure de l'incertitude, augmente avec . Si je déplace simplement mes données, de sorte que , mon incertitude diminue? Cela semble déraisonnable.
Une interprétation analogue est - dans la version non centrée de mes données, correspond à ma prédiction à , tandis que dans les données centrées, correspond à ma prédiction à . Cela signifie-t-il alors que mon incertitude sur ma prédiction à est supérieure à mon incertitude sur ma prédiction à ? Cela semble également déraisonnable, l'erreur a la même variance pour toutes les valeurs de , donc mon incertitude dans mes valeurs prédites devrait être la même pour tous les .
Il y a des lacunes dans ma compréhension, j'en suis sûr. Quelqu'un pourrait-il m'aider à comprendre ce qui se passe?
la source
Réponses:
Parce que la droite de régression ajustée par les moindres carrés ordinaires passera nécessairement par la moyenne de vos données (c'est-à-dire, ) - au moins tant que vous ne supprimez pas l'ordonnée à l'origine - incertitude sur la valeur réelle de la pente n'a aucun effet sur la position verticale de la ligne à la moyenne de x ( par exemple, à y ˉ x ). Cela se traduit par moins d'incertitude verticale à ˉ x que vous ne vous éloignez de ˉ x . Si l'ordonnée à l'origine, où x = 0 est ˉ x(x¯,y¯) x y^x¯ x¯ x¯ x=0 x¯ , cela minimisera votre incertitude sur la valeur réelle de . En termes mathématiques, cela se traduit par la plus petite valeur possible de l'erreur standard pour β 0 . β0 β^0
Voici un exemple rapide dans
R
:Ce chiffre est un peu occupé, mais vous pouvez voir les données de plusieurs études différentes où la distribution de était plus proche ou plus éloignée de 0 . Les pentes diffèrent légèrement d'une étude à l'autre, mais sont largement similaires. (Avis ils vont tous à travers le X entouré d'un cercle que j'utilisé pour marquer ( ˉ x , ˉ y ) .) Néanmoins, l'incertitude quant à la valeur réelle de ces pentes provoque l'incertitude sur y pour étendre plus vous obtenez de ˉ x , ce qui signifie que le S E ( β 0 )x 0 (x¯,y¯) y^ x¯ SE(β^0) est très large pour les données qui ont été échantillonnées dans le voisinage de , et très étroite pour l'étude dans laquelle les données ont été échantillonnées près de x = 0 . x=10 x=0
Modifier en réponse à un commentaire: Malheureusement, centrer vos données après que vous les avez ne vous aidera pas si vous voulez connaître la probable valeur à un certain x valeur x nouvelle . Au lieu de cela, vous devez centrer votre collecte de données sur le point qui vous intéresse en premier lieu. Pour mieux comprendre ces problèmes, il peut vous être utile de lire ma réponse ici: Intervalle de prédiction de régression linéaire .y x xnew
la source