Comment les résidus sont-ils liés aux perturbations sous-jacentes?

9

Dans la méthode des moindres carrés, nous voulons estimer les paramètres inconnus dans le modèle:

Yj=α+βxj+εj(j=1...n)

Une fois que nous avons fait cela (pour certaines valeurs observées), nous obtenons la droite de régression ajustée:

Yj=α^+β^x+ej(j=1,...n)

Maintenant, évidemment, nous voulons vérifier certaines parcelles pour nous assurer que les hypothèses sont remplies. Supposons que vous vouliez vérifier l'homoscédasticité, cependant, pour ce faire, nous vérifions en fait les résidus . Supposons que vous examiniez le tracé des valeurs résiduelles et des valeurs prédites, si cela nous montre qu'une hétéroscédasticité est apparente, alors comment cela est-il lié au terme de perturbation ? L'hétéroscédasticité dans les résidus implique-t-elle une hétéroscédasticité en termes de perturbation? ejεj

Danny
la source

Réponses:

3

La façon la plus simple d'y penser est que vos résidus bruts ( ) sont des estimations des perturbations correspondantes ( ). Cependant, il existe certaines complexités supplémentaires. Par exemple, bien que nous supposions dans le modèle OLS standard que les erreurs / perturbations sont indépendantes, les résidus ne peuvent pas tous l'être. En général, seuls les résidus peuvent être indépendants, car vous avez utilisé degrés de liberté pour estimer le modèle moyen et les résidus sont contraints de résumer àej=yjy^jε^j=ejNp1p10. De plus, l'écart type des résidus bruts n'est pas réellement constant. En général, la droite de régression est ajustée de telle sorte qu'elle sera plus proche en moyenne des points avec un effet de levier plus important. Par conséquent, l'écart-type des résidus pour ces points est inférieur à celui des points à faible effet de levier. (Pour en savoir plus, il peut être utile de lire les réponses de mai ici: Interpréter plot.lm () , et / ou ici: Comment effectuer une analyse résiduelle pour des prédicteurs indépendants binaires / dichotomiques en régression linéaire? )

gung - Réintégrer Monica
la source
3
Pour clarifier, tout au plus les résidus Np-1 peuvent être indépendants, mais ils sont généralement tous corrélés; au lieu de cela, il y a des transformations linéaires d'entre eux qui peuvent avoir des composants indépendants Np-1.
Glen_b -Reinstate Monica
@Glen_b, bon point.
gung - Rétablir Monica
8

La relation entre et est:ε^ε

ε^=(IH)ε

où , la matrice de chapeau, est .HX(XTX)1XT

Ce qui revient à dire que est une combinaison linéaire de toutes les erreurs, mais généralement la majeure partie du poids tombe sur la ème.ε^ii

Voici un exemple, en utilisant l' carsensemble de données dans R. Considérez le point marqué en violet:

entrez la description de l'image ici

Appelons cela le point . Le résidu, , où le pour les autres erreurs est de l'ordre de -0,02:iε^i0.98εi+jiwjεjwj

entrez la description de l'image ici

Nous pouvons réécrire cela comme:

ε^i0.98εi+ηi

ou plus généralement

ε^i=(1hii)εi+ηi

où est le - ième élément diagonal de . De même, les ci-dessus sont .hiiiHwjhij

Si les erreurs sont iid alors dans cet exemple, la somme pondérée de ces autres erreurs aura un écart-type correspondant à environ 1 / 7ème de l'effet de l'erreur de la ème observation sur son résiduel .N(0,σ2)i

C'est-à-dire que dans les régressions bien comportées, les résidus peuvent généralement être traités comme une estimation modérément bruyante du terme d'erreur non observable. Lorsque nous considérons des points plus éloignés du centre, les choses fonctionnent un peu moins bien (le résidu devient moins pondéré sur l'erreur et les pondérations sur les autres erreurs deviennent moins égales).

Avec de nombreux paramètres, ou avec des pas si bien distribués, les résidus peuvent être beaucoup moins semblables aux erreurs. Vous voudrez peut-être essayer quelques exemples.X

Glen_b -Reinstate Monica
la source
2
C'est la bonne approche. De plus, il a besoin d'un argument selon lequel les éléments diagonaux de sont généralement "petits". Cela se fait en montrant que la trace est égale au nombre de variables indépendantes (y compris l'interception, le cas échéant) - ce qui est immédiat du fait qu'il s'agit d'une matrice de projection. Notez que ce résultat est indépendant de toute hypothèse de distribution sur l'individu : il n'est pas nécessaire qu'il soit Normal. Il est également indépendant de toute formule réelle pour ; c'est la conséquence d'un décompte des dimensions. HεiH
whuber
Une autre circonstance dans laquelle les résidus pourraient être beaucoup moins semblables aux erreurs ne serait-elle pas si le nombre d'observations est petit? Habituellement, comme le dit @whuber, le fait que la trace de soit égale au nombre de variables indépendantes implique que ses éléments diagonaux sont petits, mais ce ne serait pas nécessairement le cas si le nombre de ces éléments est lui-même petit. nHn
Adam Bailey
@AdamBailey Bien sûr, cela arrive quand est petit ... mais c'est parce que est relativement grand même si n'est que 1 ou 2.np/np
Glen_b -Reinstate Monica