J'essaie de voir si les variables x et y ensemble ou séparément affectent significativement Q_7 (dont l'histogramme est ci-dessus). J'ai exécuté un test de normalité Shapiro-Wilk et j'ai obtenu ce qui suit
shapiro.test(Q_7)
## data: Q_7
## W = 0.68439, p-value < 2.2e-16
Avec cette distribution, la régression suivante fonctionnera-t-elle? Ou existe-t-il un autre test que je devrais faire?
lm(Q_7 ~ x*y)
regression
assumptions
kjetil b halvorsen
la source
la source
Q_7
. Pour le moment, il est fortement asymétrique. Vérifiez également les distributions des prédicteurs.Réponses:
Une analyse de régression suppose que les données sont normalement distribuées en fonction des variables du modèle de régression . Autrement dit, s'il s'agit du modèle de régression: où est votre matrice de variables de régresseur, est le (vecteur de) données à expliquer, est un vecteur de coefficients sur les régresseurs et est une variabilité aléatoire (généralement considérée comme du bruit), alors l'hypothèse de normalité s'applique strictement à , pas à (edit: eh bien, à strictement parler, elle s'applique à la distribution conditionnelle
Ce que vous testez ici est la distribution de , où ce que vous voulez tester est la distribution de . Bien sûr, vous ne connaissez pas , mais vous pouvez l'estimer en exécutant la régression et en examinant la distribution des résidus (où sont les coefficients estimés de la régression) . Ces résidus sont une estimation de , et donc leur distribution sera une approximation de la distribution de .y ε ε ε^=y−Xβ^ β^ ε^ ε ε
la source
La reponse courte est oui.
Tout d'abord (comme le souligne Ruben van Bergen), la distribution de (ou , d'ailleurs) n'est pas pertinente. Si vous deviez faire une supposition distributionnelle, ce serait sur votre résidus , c'est donc ce que vous devriez vérifier.y X ε
Mais plus important encore, vous n'avez pas du tout besoin de l'hypothèse de normalité pour que votre estimation fonctionne. Vous utilisez laY X
lm
fonction de R , qui estime votre modèle à l'aide des moindres carrés ordinaires (OLS) . Cette méthode vous donnera une estimation correcte de l'espérance de conditionnelle à tant que:Si vous faites en outre l'hypothèse que vos résidus ne sont pas corrélés et qu'ils ont tous la même variance, alors le théorème de Gauss-Markov s'applique et l'OLS est le meilleur estimateur linéaire sans biais (BLEU).
Si vos résidus sont corrélés ou ont des variances différentes, l'OLS fonctionne toujours mais il peut être moins précis, ce qui doit se refléter dans la façon dont vous déclarez les intervalles de confiance de vos estimations (en utilisant, par exemple, des erreurs-types robustes ).
Si vous supposez également que vos résidus sont normalement distribués, l'OLS devient asymptotiquement efficace car il équivaut à la probabilité maximale.
Ainsi, la régression peut mieux fonctionner si vos données sont normalement distribuées, mais elle fonctionnera toujours si elles ne le sont pas.
la source