Selon l' analyse de régression par exemple , le résidu est la différence entre la réponse et la valeur prédite, puis il est dit que chaque résidu a une variance différente, nous devons donc considérer des résidus normalisés.
Mais la variance concerne un groupe de valeurs, comment une seule valeur peut-elle avoir une variance?
regression
residuals
ccshao
la source
la source
Réponses:
Je dirais qu'un nombre individuel (tel qu'un résidu), qui résulte d'un tirage aléatoire à partir d'une distribution de probabilité, est une valeur réalisée , pas une variable aléatoire . De même, je dirais que l'ensemble des résidus, calculé à partir de vos données et votre ajustement du modèle en utilisant e = y - y , est un ensemble de valeurs réalisées. Cet ensemble de nombres peut être vaguement conceptualisé comme des tirages indépendants d'une distribution sous-jacente ϵ ~ N ( μ , σ 2 )N e = y - y^ ϵ N( μ , σ2) . (Malheureusement, cependant, il y a plusieurs complexités supplémentaires ici. Par exemple, vous n'avez en fait pas d'informations indépendantes, car les résidus, e , doivent satisfaire deux conditions: ∑ e i = 0 et ) N e ∑ei=0 ∑xiei=0
Maintenant, étant donné un certain nombre de nombres, qu'ils soient résiduels ou autre, il est certainement vrai qu'ils ont une variance, , mais ce n'est pas intéressant. Ce qui nous importe, c'est de pouvoir dire quelque chose sur le processus de génération de données (par exemple, pour estimer la variance de la répartition de la population). En utilisant la formule précédente, nous pourrions donner une approximation en remplaçant le par les degrés de liberté résiduels, mais cela peut ne pas être une bonne approximation. C'est un sujet qui peut devenir très compliqué très rapidement, mais deux raisons possibles pourraient être l' hétéroscédasticité (c'est-à-dire que la variance de la population diffère à différents niveaux de ) et la présence de valeurs aberrantesN x∑(ei−e¯)2/N N x (c'est-à-dire qu'un résidu donné provient entièrement d'une population différente). Il est presque certain qu'en pratique, vous ne pourrez pas estimer la variance de la population dont une valeur aberrante a été tirée, mais néanmoins, en théorie, elle a une variance. Je soupçonne que quelque chose dans ce sens est ce que les auteurs avaient en tête, cependant, je dois noter que je n'ai pas lu ce livre.
Mise à jour: En relisant la question, je soupçonne que la citation peut se référer à la façon dont la valeur d'un point influence la ligne de régression ajustée, et donc la valeur du résidu associé à ce point. L'idée clé à saisir ici est l' effet de levier . Je discute de ces sujets dans ma réponse ici: Interpréter plot.lm () .x
la source