Que signifient les résidus normaux et qu'est-ce que cela m'apprend sur mes données?

13

Question assez basique:

Que signifie une distribution normale des résidus d'une régression linéaire? En termes de, comment cela se reflète-t-il sur mes données d'origine de la régression?

Je suis totalement perplexe, merci les gars

smar
la source

Réponses:

5

La régression linéaire modélise en fait les valeurs conditionnelles attendues de votre résultat. Cela signifie: si vous connaissiez les vraies valeurs des paramètres de régression (disons et β 1 ), étant donné une valeur de votre prédicteur X, remplissez-la dans l'équation E [ Y | X ] = β 0 + β 1 X aura calculer la valeur attendue pour Y sur toutes les observations qui ont cette valeur donnée pour (possible) X .β0β1

E[Y|X]=β0+β1X
YX

Cependant: vous ne vous attendez pas vraiment à ce qu'une seule valeur pour cette valeur X donnée soit exactement égale à la moyenne (conditionnelle). Non pas parce que votre modèle est erroné, mais parce qu'il y a certains effets que vous n'avez pas pris en compte (par exemple, erreur de mesure). Ainsi, ces valeurs Y pour une valeur X donnée fluctueront autour de la valeur moyenne (c'est-à-dire géométriquement: autour du point de la droite de régression pour ce X ).YXOuiXX

L'hypothèse de normalité dit maintenant que la différence entre les et leur E correspondant [ Y | X ] suit une distribution normale avec une moyenne nulle. Cela signifie que si vous avez une valeur X , vous pouvez alors échantillonner une valeur Y en calculant d'abord β 0 + β 1 X (c'est-à-dire encore E [ Y | X ] , le point sur la droite de régression), puis en échantillonnant ϵ à partir de cette normale distribution et addition: Y = E [ Y | XOuiE[Oui|X]XOuiβ0+β1XE[Oui|X]ϵ

Oui=E[Oui|X]+ϵ

En bref: cette distribution normale représente la variabilité de votre résultat en plus de la variabilité expliquée par le modèle.

OuiX

Remarque: J'ai fait le raisonnement pour la régression linéaire avec un prédicteur, mais il en va de même pour plus: remplacez simplement "ligne" par "hyperplan" dans ce qui précède.

Nick Sabbe
la source
Ceci est une excellente explication! Une question cependant: e étant normalement distribué signifie que vous supposez que les valeurs les plus probables pour e sont comprises entre -1 et +1 (après avoir été normalisées)? Donc, vous utilisez essentiellement une distribution normale au lieu, disons, d'une distribution de poisson, parce que la distribution normale modélise mieux comment ces valeurs se comportent dans la vie réelle?
user3813234
1

Cela pourrait signifier beaucoup ou ne rien dire. Si vous ajustez un modèle pour obtenir le R-Squared le plus élevé, cela pourrait signifier que vous avez été stupide. Si vous adaptez un modèle à la parcimonie en ce sens que les variables sont nécessaires et nécessaires et que vous vous souciez d'identifier les valeurs aberrantes, alors vous avez fait du bon travail. Jetez un œil ici pour en savoir plus sur ce http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175

Tom Reilly
la source
0

La normalité des résidus est une hypothèse de fonctionnement d'un modèle linéaire. Donc, si vos résidus sont normaux, cela signifie que votre hypothèse est valide et que l'inférence du modèle (intervalles de confiance, prévisions du modèle) devrait également être valide. C'est si simple!

wcampbell
la source
L'hypothèse de normalité concerne l'erreur non observable (d'où la nécessité d'une hypothèse), pas les résidus observables.
DL Dahly
2
Oui, mais vous utilisez les résidus pour tester votre hypothèse sur l'erreur inobservable.
wcampbell
- à