Examinons la figure suivante tirée de Modèles linéaires avec R de Faraway (2005, p. 59).
Le premier graphique semble indiquer que les valeurs résiduelles et ajustées ne sont pas corrélées, car elles devraient figurer dans un modèle linéaire homoscédastique avec des erreurs distribuées normalement. Par conséquent, les deuxième et troisième graphiques, qui semblent indiquer une dépendance entre les valeurs résiduelles et les valeurs ajustées, suggèrent un modèle différent.
Mais pourquoi le second graphique suggère-t-il, comme le note si loin, un modèle linéaire hétéroscédastique, alors que le troisième graphique suggère un modèle non linéaire?
Le deuxième graphique semble indiquer que la valeur absolue des résidus est fortement corrélée positivement aux valeurs ajustées, alors qu'une telle tendance n'est pas évidente dans le troisième graphique. Donc, si c’était le cas, théoriquement, dans un modèle linéaire hétéroscédastique avec des erreurs distribuées normalement
(où l'expression à gauche est la matrice de variance-covariance entre les valeurs résiduelles et les valeurs ajustées), cela expliquerait pourquoi les deuxième et troisième parcelles concordent avec les interprétations de Faraway.
Mais est-ce le cas? Sinon, comment pourrait-on justifier les interprétations de Lara des deuxième et troisième parcelles? Aussi, pourquoi le troisième graphique indique-t-il nécessairement une non-linéarité? N'est-il pas possible qu'il soit linéaire, mais que les erreurs ne sont pas normalement distribuées ou qu'elles sont normalement distribuées, mais ne se centrent pas autour de zéro?
Réponses:
Vous trouverez ci-dessous les tracés résiduels avec la moyenne approximative et l'étendue des points (limites comprenant la plupart des valeurs) à chaque valeur d'ajusté (et donc de ) marqué - en approximation approximative indiquant la moyenne conditionnelle (rouge) et la moyenne conditionnelle. (environ!) deux fois l'écart type conditionnel (violet):±X ±
Le deuxième graphique montre que le résidu moyen ne change pas avec les valeurs ajustées (et donc ne change pas avec ), mais la dispersion des résidus (et donc des autour de la ligne ajustée) augmente à mesure que le les valeurs ajustées (ou ) changent. C'est-à-dire que la propagation n'est pas constante. Hétéroscédasticitéy xX y X
le troisième graphique montre que les résidus sont généralement négatifs lorsque la valeur ajustée est petite, positifs lorsque la valeur ajustée est au milieu et négatifs lorsque la valeur ajustée est grande. Autrement dit, l'écart est approximativement constant, mais la moyenne conditionnelle ne l'est pas - la ligne ajustée ne décrit pas comment se comporte lorsque change, car la relation est courbe.xy X
Pas vraiment *, dans ces situations, les intrigues sont différentes de la troisième.
(i) Si les erreurs étaient normales mais non centrées à zéro, mais à , l’interception l’erreur moyenne et l’interception estimée serait donc une estimation de (ce serait son valeur attendue, mais elle est estimée avec une erreur). Par conséquent, vos résidus auraient toujours une moyenne conditionnelle nulle, et le tracé ressemblerait au premier tracé ci-dessus.β 0 + θθ β0+ θ
(ii) Si les erreurs ne sont pas normalement distribuées, la configuration de points pourrait être la plus dense ailleurs que sur la ligne médiane (si les données étaient asymétriques), par exemple, mais le résidu de la moyenne locale serait toujours proche de 0.
Ici, les lignes violettes représentent toujours un intervalle (très) d'environ 95%, mais ce n'est plus symétrique. (J'aborde quelques points pour ne pas occulter le point fondamental ici.)
* Ce n'est pas forcément impossible - si vous avez un terme "erreur" qui ne se comporte pas vraiment comme une erreur - dites où et sont liés de la bonne façon - vous pourrez peut-être produire des motifs similaires à ceux-ci. Cependant, nous émettons des hypothèses sur le terme d'erreur, par exemple qu'il ne soit pas lié à et qu'il a une moyenne nulle; il nous faudrait briser au moins certaines de ces hypothèses pour le faire. (Dans de nombreux cas, vous pouvez avoir des raisons de penser que de tels effets devraient être absents ou au moins relativement faibles.)y xX y X
la source
Tu as écrit
Ça ne semble pas, ça le fait. Et c'est ce que signifie hétéroscédastique.
Ensuite, vous donnez une matrice de tous les 1, ce qui est sans importance; la corrélation peut exister et être inférieure à 1.
Alors tu écris
Ils font centre autour de 0. La moitié ou plus sont en dessous de 0, la moitié au- dessus. Il est plus difficile de dire s'ils sont normalement distribués à partir de ce graphique, mais un autre graphique généralement recommandé est un graphique quantile normal des résidus, ce qui indiquerait s'ils sont normaux ou non.
la source