Comment comprendre le résidu standardisé dans l'analyse de régression?

9

Selon l' analyse de régression par exemple , le résidu est la différence entre la réponse et la valeur prédite, puis il est dit que chaque résidu a une variance différente, nous devons donc considérer des résidus normalisés.

Mais la variance concerne un groupe de valeurs, comment une seule valeur peut-elle avoir une variance?

ccshao
la source
2
Il serait utile de citer directement le manuel ou (s'il est disponible en ligne) de lui fournir un lien. Beaucoup de choses peuvent se perdre si même un seul mot est retiré de l'ordre ou hors contexte. (Par exemple, les résidus sont généralement définis comme la différence entre la prédiction et la réponse, et non l'inverse.)
whuber
Les variables aléatoires uniques ont des variances. Les résidus sont des variables aléatoires - ce sont des fonctions des données. Ainsi, les résidus simples (standardisés ou non) ont des variances.
invité
#whuber Le manuel est "Regression.Analysis.by.Example", page, 89. Il a discuté des types de résidus. le résidu ordinaire est la prédiction de réponse. @guest "Les variables aléatoires simples ont des variances", c'est ce que je ne comprends pas, les variables sont une propriété pour un échantillon, n'est-ce pas? pourquoi une valeur unique dans un échantillon (comme un résidu) présente une variance?
ccshao
Le livre a-t-il un auteur ...? Cela facilite généralement la recherche. Je pense que vous confondez la variance de l'échantillon et la variance de la population. Le résidu est inconnu avant la réalisation de l'expérience. La réponse est aléatoire et le résidu aussi, car elle est fonction de la réponse. Lorsque nous parlons de la variance du résidu, nous parlons de la variance de la variable aléatoire sous-jacente.
MånsT
désolé pour le dérangement, les auteurs sont SAMPRIT CHATTEFUEE et ALI S. HADI, Analyse de régression par l'exemple, quatrième édition.
ccshao

Réponses:

9

Je dirais qu'un nombre individuel (tel qu'un résidu), qui résulte d'un tirage aléatoire à partir d'une distribution de probabilité, est une valeur réalisée , pas une variable aléatoire . De même, je dirais que l'ensemble des résidus, calculé à partir de vos données et votre ajustement du modèle en utilisant e = y - y , est un ensemble de valeurs réalisées. Cet ensemble de nombres peut être vaguement conceptualisé comme des tirages indépendants d'une distribution sous-jacente ϵ ~ N ( μ , σ 2 )Ne=yy^ϵN(μ,σ2). (Malheureusement, cependant, il y a plusieurs complexités supplémentaires ici. Par exemple, vous n'avez en fait pas d'informations indépendantes, car les résidus, e , doivent satisfaire deux conditions: e i = 0 et ) Neei=0xiei=0

Maintenant, étant donné un certain nombre de nombres, qu'ils soient résiduels ou autre, il est certainement vrai qu'ils ont une variance, , mais ce n'est pas intéressant. Ce qui nous importe, c'est de pouvoir dire quelque chose sur le processus de génération de données (par exemple, pour estimer la variance de la répartition de la population). En utilisant la formule précédente, nous pourrions donner une approximation en remplaçant le par les degrés de liberté résiduels, mais cela peut ne pas être une bonne approximation. C'est un sujet qui peut devenir très compliqué très rapidement, mais deux raisons possibles pourraient être l' hétéroscédasticité (c'est-à-dire que la variance de la population diffère à différents niveaux de ) et la présence de valeurs aberrantesN x(eie¯)2/NNx(c'est-à-dire qu'un résidu donné provient entièrement d'une population différente). Il est presque certain qu'en pratique, vous ne pourrez pas estimer la variance de la population dont une valeur aberrante a été tirée, mais néanmoins, en théorie, elle a une variance. Je soupçonne que quelque chose dans ce sens est ce que les auteurs avaient en tête, cependant, je dois noter que je n'ai pas lu ce livre.

Mise à jour: En relisant la question, je soupçonne que la citation peut se référer à la façon dont la valeur d'un point influence la ligne de régression ajustée, et donc la valeur du résidu associé à ce point. L'idée clé à saisir ici est l' effet de levier . Je discute de ces sujets dans ma réponse ici: Interpréter plot.lm () . x

gung - Réintégrer Monica
la source
1
Merci! L'effet de levier est la chose que je ne comprends pas avant. Il n'y a pas ou peu d'effet de régression pour les données qui ont x proche de la moyenne (x), donc une variance élevée.
ccshao