J'aimerais savoir s'il est logique d'étudier les graphiques des résidus par rapport à la variable dépendante lorsque j'ai une régression univariée. Si cela a du sens, que signifie une forte corrélation croissante linéaire entre les résidus (sur l'axe des y) et les valeurs estimées de la variable dépendante (sur l'axe des x)?
regression
residuals
Luigi
la source
la source
Réponses:
Supposons que vous ayez la régression , où . Ensuite, . Plus la valeur élevée, plus le résidu est important. Au contraire, un tracé des résidus contre ne devrait montrer aucune relation systématique. De plus, la valeur prédite devrait être approximativement --- la même pour chaque observation. Si toutes les valeurs prévues sont à peu près les mêmes, elles ne doivent pas être corrélées avec les erreurs.β 1 ≈ 0 y i - β 0 ≈ ε i y x y i β 0yje= β0+ β1Xje+ ϵje β1≈ 0 yje- β0≈ ϵje y X y^je β^0
Ce que l'intrigue me dit, c'est que et sont essentiellement indépendants (bien sûr, il existe de meilleures façons de le montrer). Faites-nous savoir si votre coefficient n'est pas proche de 0.y β 1X y β^1
Pour un meilleur diagnostic, utilisez un tracé des résidus par rapport au salaire prévu ou à la valeur . Vous ne devez pas observer un motif distinct dans ces graphiques.X
Si vous voulez une petite démonstration R, c'est parti:
la source
En supposant que le modèle estimé est correctement spécifié ...
Notons , la matrice est une matrice de projection, donc et .P X P 2 X = P X P ′ X = P XPX= X( X′X)- 1X′ PX P2X= PX P′X= PX
Ainsi, le nuage de points des résidus par rapport à la variable dépendante prévue ne devrait montrer aucune corrélation.
Mais!
La matrice est une matrice de projection, ses valeurs propres sont 0 ou +1, elle est semi-définie positive. Il devrait donc avoir des valeurs non négatives sur la diagonale. Ainsi, le nuage de points des résidus par rapport à la variable dépendante d'origine devrait montrer une corrélation positive.σ2( Je- PX)
Autant que je sache, Gretl produit par défaut le graphique des résidus par rapport à la variable dépendante d'origine (pas celle prédite!).
la source
Est-il possible que vous confondiez les valeurs ajustées / prévues avec les valeurs réelles?
Comme l'ont dit @gung et @biostat, vous espérez qu'il n'y a pas de relation entre les valeurs ajustées et les résidus. D'un autre côté, trouver une relation linéaire entre les valeurs réelles de la variable dépendante / résultat et les résidus est à prévoir et n'est pas particulièrement informatif.
Ajouté pour clarifier la phrase précédente: Pas n'importe quelle relation linéaire entre les résidus et les valeurs réelles du résultat est à prévoir ... Pour les faibles valeurs mesurées de Y, les valeurs prédites de Y à partir d'un modèle utile auront tendance à être plus élevées que les valeurs mesurées réelles et vice versa.
la source
Les réponses proposées me donnent quelques idées sur ce qui se passe ici. Je pense qu'il y a peut-être eu des erreurs par accident. Voyez si l'histoire suivante a du sens: pour commencer, je pense qu'il y a probablement une forte relation entre X & Y dans les données (voici du code et un tracé):
Mais par erreur, Y a été prévu uniquement à partir de la moyenne. Pour ajouter à cela, les résidus du modèle de moyenne seule sont tracés en fonction de X, même si ce qui était prévu était de tracer en fonction des valeurs ajustées (code et tracé):
Nous pouvons résoudre ce problème en ajustant le modèle approprié et en traçant les résidus à partir de cela (code et tracé):
Cela semble être juste le genre de gaffes que j'ai faites au début.
la source
Ce graphique indique que le modèle que vous avez installé n'est pas bon. Comme l'a dit @gung dans les premiers commentaires sur la question principale, il ne devrait pas y avoir de relation entre la réponse prédite et le résidu.
"un analyste devrait s'attendre à ce qu'un modèle de régression se trompe en prédisant une réponse de manière aléatoire; le modèle devrait prévoir des valeurs supérieures à la réalité et inférieures à la réalité avec une probabilité égale. Voir ceci "
Je recommanderais la première réponse du tracé par rapport à la variable indépendante pour voir la relation entre eux. Il pourrait être raisonnable d'ajouter des termes polynomiaux dans le modèle.
la source
N'est-ce pas ce qui se passe s'il n'y a pas de relation entre la variable X & Y? En regardant ce graphique, il semble que vous prédisiez essentiellement Y avec sa moyenne.
la source
Je pense que OP a tracé les résidus par rapport à la variable de réponse d'origine (et non la variable de réponse ajustée du modèle). Je vois des tracés comme ça tout le temps, avec presque le même motif exact. Assurez-vous de tracer les résidus par rapport aux valeurs ajustées, car je ne sais pas quelle déduction significative vous pourriez tirer des résidus par rapport au Y d'origine. Mais je peux certainement me tromper.
la source