Question assez basique:
Que signifie une distribution normale des résidus d'une régression linéaire? En termes de, comment cela se reflète-t-il sur mes données d'origine de la régression?
Je suis totalement perplexe, merci les gars
la source
Question assez basique:
Que signifie une distribution normale des résidus d'une régression linéaire? En termes de, comment cela se reflète-t-il sur mes données d'origine de la régression?
Je suis totalement perplexe, merci les gars
La régression linéaire modélise en fait les valeurs conditionnelles attendues de votre résultat. Cela signifie: si vous connaissiez les vraies valeurs des paramètres de régression (disons et β 1 ), étant donné une valeur de votre prédicteur X, remplissez-la dans l'équation E [ Y | X ] = β 0 + β 1 X aura calculer la valeur attendue pour Y sur toutes les observations qui ont cette valeur donnée pour (possible) X .
Cependant: vous ne vous attendez pas vraiment à ce qu'une seule valeur pour cette valeur X donnée soit exactement égale à la moyenne (conditionnelle). Non pas parce que votre modèle est erroné, mais parce qu'il y a certains effets que vous n'avez pas pris en compte (par exemple, erreur de mesure). Ainsi, ces valeurs Y pour une valeur X donnée fluctueront autour de la valeur moyenne (c'est-à-dire géométriquement: autour du point de la droite de régression pour ce X ).
L'hypothèse de normalité dit maintenant que la différence entre les et leur E correspondant [ Y | X ] suit une distribution normale avec une moyenne nulle. Cela signifie que si vous avez une valeur X , vous pouvez alors échantillonner une valeur Y en calculant d'abord β 0 + β 1 X (c'est-à-dire encore E [ Y | X ] , le point sur la droite de régression), puis en échantillonnant ϵ à partir de cette normale distribution et addition: Y ′ = E [ Y | X
En bref: cette distribution normale représente la variabilité de votre résultat en plus de la variabilité expliquée par le modèle.
Remarque: J'ai fait le raisonnement pour la régression linéaire avec un prédicteur, mais il en va de même pour plus: remplacez simplement "ligne" par "hyperplan" dans ce qui précède.
Cela pourrait signifier beaucoup ou ne rien dire. Si vous ajustez un modèle pour obtenir le R-Squared le plus élevé, cela pourrait signifier que vous avez été stupide. Si vous adaptez un modèle à la parcimonie en ce sens que les variables sont nécessaires et nécessaires et que vous vous souciez d'identifier les valeurs aberrantes, alors vous avez fait du bon travail. Jetez un œil ici pour en savoir plus sur ce http://www.autobox.com/cms/index.php?option=com_content&view=article&id=175
la source
La normalité des résidus est une hypothèse de fonctionnement d'un modèle linéaire. Donc, si vos résidus sont normaux, cela signifie que votre hypothèse est valide et que l'inférence du modèle (intervalles de confiance, prévisions du modèle) devrait également être valide. C'est si simple!
la source