Interprétation de la courbe des résidus par rapport aux valeurs ajustées pour la vérification des hypothèses d'un modèle linéaire

34

Examinons la figure suivante tirée de Modèles linéaires avec R de Faraway (2005, p. 59).

entrez la description de l'image ici

Le premier graphique semble indiquer que les valeurs résiduelles et ajustées ne sont pas corrélées, car elles devraient figurer dans un modèle linéaire homoscédastique avec des erreurs distribuées normalement. Par conséquent, les deuxième et troisième graphiques, qui semblent indiquer une dépendance entre les valeurs résiduelles et les valeurs ajustées, suggèrent un modèle différent.

Mais pourquoi le second graphique suggère-t-il, comme le note si loin, un modèle linéaire hétéroscédastique, alors que le troisième graphique suggère un modèle non linéaire?

Le deuxième graphique semble indiquer que la valeur absolue des résidus est fortement corrélée positivement aux valeurs ajustées, alors qu'une telle tendance n'est pas évidente dans le troisième graphique. Donc, si c’était le cas, théoriquement, dans un modèle linéaire hétéroscédastique avec des erreurs distribuées normalement

Cor(e,y^)=[1111]

(où l'expression à gauche est la matrice de variance-covariance entre les valeurs résiduelles et les valeurs ajustées), cela expliquerait pourquoi les deuxième et troisième parcelles concordent avec les interprétations de Faraway.

Mais est-ce le cas? Sinon, comment pourrait-on justifier les interprétations de Lara des deuxième et troisième parcelles? Aussi, pourquoi le troisième graphique indique-t-il nécessairement une non-linéarité? N'est-il pas possible qu'il soit linéaire, mais que les erreurs ne sont pas normalement distribuées ou qu'elles sont normalement distribuées, mais ne se centrent pas autour de zéro?

Evan Aad
la source
3
Aucune des trois courbes ne montre de corrélation (du moins pas de corrélation linéaire, ce qui est le sens pertinent de "corrélation" dans le sens où elle est utilisée dans " les résidus et les valeurs ajustées ne sont pas corrélés ").
Glen_b -Reinstate Monica
1
@Glen_b: Merci. J'ai corrigé le paragraphe auquel vous faisiez référence en substituant "dépendance" à "corrélation".
Evan Aad

Réponses:

46

Vous trouverez ci-dessous les tracés résiduels avec la moyenne approximative et l'étendue des points (limites comprenant la plupart des valeurs) à chaque valeur d'ajusté (et donc de ) marqué - en approximation approximative indiquant la moyenne conditionnelle (rouge) et la moyenne conditionnelle. (environ!) deux fois l'écart type conditionnel (violet):±x±

parcelles de diagnostic avec une moyenne approximative et réparties à chaque valeur de l'équipement

  • Le deuxième graphique montre que le résidu moyen ne change pas avec les valeurs ajustées (et donc ne change pas avec ), mais la dispersion des résidus (et donc des autour de la ligne ajustée) augmente à mesure que le les valeurs ajustées (ou ) changent. C'est-à-dire que la propagation n'est pas constante. Hétéroscédasticitéy xxyx

  • le troisième graphique montre que les résidus sont généralement négatifs lorsque la valeur ajustée est petite, positifs lorsque la valeur ajustée est au milieu et négatifs lorsque la valeur ajustée est grande. Autrement dit, l'écart est approximativement constant, mais la moyenne conditionnelle ne l'est pas - la ligne ajustée ne décrit pas comment se comporte lorsque change, car la relation est courbe.xyx

N'est-il pas possible qu'il soit linéaire, mais que les erreurs ne sont pas normalement distribuées ou qu'elles sont normalement distribuées, mais ne se centrent pas autour de zéro?

Pas vraiment *, dans ces situations, les intrigues sont différentes de la troisième.

(i) Si les erreurs étaient normales mais non centrées à zéro, mais à , l’interception l’erreur moyenne et l’interception estimée serait donc une estimation de (ce serait son valeur attendue, mais elle est estimée avec une erreur). Par conséquent, vos résidus auraient toujours une moyenne conditionnelle nulle, et le tracé ressemblerait au premier tracé ci-dessus.β 0 + θθβ0+θ

(ii) Si les erreurs ne sont pas normalement distribuées, la configuration de points pourrait être la plus dense ailleurs que sur la ligne médiane (si les données étaient asymétriques), par exemple, mais le résidu de la moyenne locale serait toujours proche de 0.

erreurs non normales

Ici, les lignes violettes représentent toujours un intervalle (très) d'environ 95%, mais ce n'est plus symétrique. (J'aborde quelques points pour ne pas occulter le point fondamental ici.)

* Ce n'est pas forcément impossible - si vous avez un terme "erreur" qui ne se comporte pas vraiment comme une erreur - dites où et sont liés de la bonne façon - vous pourrez peut-être produire des motifs similaires à ceux-ci. Cependant, nous émettons des hypothèses sur le terme d'erreur, par exemple qu'il ne soit pas lié à et qu'il a une moyenne nulle; il nous faudrait briser au moins certaines de ces hypothèses pour le faire. (Dans de nombreux cas, vous pouvez avoir des raisons de penser que de tels effets devraient être absents ou au moins relativement faibles.)y xxyx

Glen_b -Reinstate Monica
la source
1
Laissez-moi voir si je comprends bien. L'homoscédasticité signifie-t-elle que la propagation des erreurs ne dépend pas de x (et donc de non plus, puisque est une fonction de )? y xy^y^x
Evan Aad
2
Homoscédasticité signifie littéralement "même propagation". C'est-à-dire que la variance (population) de la réponse à chaque point de données devrait être la même. Une des manières observables de différer du fait d'être égal est de savoir si cela change avec la moyenne (estimé par ajusté); Une autre solution consiste à modifier une variable indépendante (bien que, dans la plupart des cas, une seule variable indépendante soit probablement disponible pour la régression simple, les deux seront donc fondamentalement identiques). Vous pouvez imaginer une situation où la moyenne change avec mais la propagation change avec , qui n'est pas liée à . x 2 x 1x1x2x1
Glen_b -Reinstate Monica
1
(ctd) ... ce serait toujours une violation de toutes les observations ayant la même propagation. [J'étais un peu flou avec la distinction entre et les valeurs ajustées; Je vais essayer de nettoyer ça.]x
Glen_b -Reinstate Monica
Merci. La situation est beaucoup plus claire maintenant. Je pensais que l'homoscédasticité signifiait que la matrice de variance-covariance de l'erreur se présentait sous la forme , et donc en particulier si le vecteur d'erreur distribué sous la forme pour certaines matrices arbitraires et symétriques , le modèle était hétéroscédastique. Maintenant, je réalise que ce n'est pas le cas. Mais maintenant que je comprends le sens de l'homoscédasticité, j'ai une autre question. Est-il possible de dire d'après le premier graphique de Faraway que la matrice de variance-covariance de l'erreur a la forme ? Serait-ce un arbitraire ? N ( 0 , V ) V σ 2 I Vσ2IN(0,V)Vσ2jeV
Evan Aad
1
(ctd) ... comme vous devriez pouvoir le voir dans mon premier commentaire sous ma réponse, en particulier à la suite de la phrase commençant par "Vous pouvez imaginer ..." - mais elle exclut à peu près l'hétéroscédasticité liée la moyenne.
Glen_b -Reinstate Monica
2

Tu as écrit

Le deuxième graphique semble indiquer que la valeur absolue des résidus est fortement corrélée positivement aux valeurs ajustées,

Ça ne semble pas, ça le fait. Et c'est ce que signifie hétéroscédastique.

Ensuite, vous donnez une matrice de tous les 1, ce qui est sans importance; la corrélation peut exister et être inférieure à 1.

Alors tu écris

Aussi, pourquoi le troisième graphique indique-t-il nécessairement une non-linéarité? N'est-il pas possible qu'il soit linéaire, mais que les erreurs ne sont pas normalement distribuées ou qu'elles sont normalement distribuées, mais ne se centrent pas autour de zéro?

Ils font centre autour de 0. La moitié ou plus sont en dessous de 0, la moitié au- dessus. Il est plus difficile de dire s'ils sont normalement distribués à partir de ce graphique, mais un autre graphique généralement recommandé est un graphique quantile normal des résidus, ce qui indiquerait s'ils sont normaux ou non.

Peter Flom - Rétablir Monica
la source
Merci. Est-il possible que la distribution des erreurs du premier tracé soit pour une matrice symétrique qui n'a pas la forme ? Si oui, pouvons-nous toujours utiliser un graphique QQ pour déterminer que les erreurs se distribuent normalement? V σ 2 IN(0,V)Vσ2je
Evan Aad
1
Un graphique quantile normal ne considère que la normalité. Les preuves de l'homoscédasticité dans le premier complot sont visuelles
Peter Flom - Réintégrer Monica
@PeterFlom: Désolé pour la nécroposte: je suis un peu confus quant à la quantification selon laquelle on considère l'erreur à chaque point (xi, yi): Considérons-nous plusieurs réponses (xi, y1_1), (xi, yi_2), ... , (xi, yi_m) pour l'entrée xi; i = 1,2, ..., n (nombre de points de données) puis trouver la moyenne et la variance pour les valeurs yi_j? Je ne comprends pas pourquoi, dans une régression linéaire, y = ax + b, x, y, a (ou un multilinéaire y + a1x1 + a2x2 + ... anxn puis ai, xi) sont des variables aléatoires et non des valeurs fixes. En outre, effectuons-nous cette analyse pour chaque paire de prédicteurs et chaque paire (y, x_i) avec y la valeur indépendante?
gary
Je ne comprends pas pourquoi vous êtes confus. Il existe une valeur prédite de y et une valeur réelle de y pour chaque observation. Le résidu est la différence entre eux.
Peter Flom - Rétablir Monica