Dans le contexte de la régression OLS, je comprends qu'un tracé résiduel (vs valeurs ajustées) est conventionnellement considéré pour tester la variance constante et évaluer la spécification du modèle. Pourquoi les résidus sont-ils tracés par rapport aux ajustements, et non par les valeurs ? En quoi les informations diffèrent-elles de ces deux graphiques?
Je travaille sur un modèle qui a produit les parcelles résiduelles suivantes:
Ainsi, le tracé par rapport aux valeurs ajustées semble bon au premier coup d'œil, mais le deuxième tracé par rapport à la valeur a un motif. Je me demande pourquoi un modèle aussi prononcé ne se manifesterait pas également dans le graphique résiduel vs ajustement ...
Réponses:
Par construction, le terme d'erreur dans un modèle OLS n'est pas corrélé avec les valeurs observées des covariables X. Cela sera toujours vrai pour les données observées même si le modèle produit des estimations biaisées qui ne reflètent pas les vraies valeurs d'un paramètre car une hypothèse du modèle est violée (comme un problème de variable omise ou un problème de causalité inverse). Les valeurs prévues sont entièrement fonction de ces covariables et ne sont donc pas non plus corrélées avec le terme d'erreur. Ainsi, lorsque vous tracez des résidus par rapport à des valeurs prédites, ils doivent toujours sembler aléatoires car ils ne sont en effet pas corrélés par la construction de l'estimateur. En revanche, il est tout à fait possible (et même probable) que le terme d'erreur d'un modèle soit corrélé avec Y dans la pratique. Par exemple, avec une variable X dichotomique, plus le vrai Y est éloigné
E(Y | X = 1)
ouE(Y | X = 0)
alors plus le résidu sera grand. Voici la même intuition avec les données simulées dans R où nous savons que le modèle est non biaisé car nous contrôlons le processus de génération des données:Nous obtenons le même résultat de corrélation nulle avec un modèle biaisé, par exemple si nous omettons
x1.
la source
Deux faits que je suppose que vous êtes content de moi en déclarant:
Alors:
Ainsi, bien que la valeur ajustée ne soit pas corrélée avec le résidu, l'observation l' est .
En effet, cela est dû au fait que l'observation et le résidu sont tous deux liés au terme d'erreur.
Cela rend généralement un peu plus difficile l'utilisation du tracé résiduel à des fins de diagnostic.
la source