La régression fonctionne-t-elle sur des données qui ne sont pas normalement distribuées?

8

histogramme de mes données

J'essaie de voir si les variables x et y ensemble ou séparément affectent significativement Q_7 (dont l'histogramme est ci-dessus). J'ai exécuté un test de normalité Shapiro-Wilk et j'ai obtenu ce qui suit

shapiro.test(Q_7)
## data:  Q_7
## W = 0.68439, p-value < 2.2e-16

Avec cette distribution, la régression suivante fonctionnera-t-elle? Ou existe-t-il un autre test que je devrais faire?

lm(Q_7 ~ x*y)
kjetil b halvorsen
la source
7
vérifier les résidus, pas les données
李哲源
Essayez de transformer les journaux Q_7. Pour le moment, il est fortement asymétrique. Vérifiez également les distributions des prédicteurs.
Joe
1
Recherchez le théorème de Gauss Markov.
G. Grothendieck
Essayez avec la transformation de racine carrée. Si vous avez plusieurs zéros, la transformation du journal peut ne pas fonctionner correctement. De plus, comme vous avez affaire à des dénombrements, la régression binomiale négative de Poisson est un choix plus naturel.
utobi
1
Que signifie «non-données»?
Silverfish

Réponses:

17

Une analyse de régression suppose que les données sont normalement distribuées en fonction des variables du modèle de régression . Autrement dit, s'il s'agit du modèle de régression: où est votre matrice de variables de régresseur, est le (vecteur de) données à expliquer, est un vecteur de coefficients sur les régresseurs et est une variabilité aléatoire (généralement considérée comme du bruit), alors l'hypothèse de normalité s'applique strictement à , pas à (edit: eh bien, à strictement parler, elle s'applique à la distribution conditionnelle

y=Xβ+ε
Xyβεεyy|X(qui est la même que la distribution de ), mais pas à la distribution marginale de ). En d'autres termes, les données devraient être normalement distribuées une fois que les effets des régresseurs ont été pris en compte, mais pas (nécessairement) auparavant.εy

Ce que vous testez ici est la distribution de , où ce que vous voulez tester est la distribution de . Bien sûr, vous ne connaissez pas , mais vous pouvez l'estimer en exécutant la régression et en examinant la distribution des résidus (où sont les coefficients estimés de la régression) . Ces résidus sont une estimation de , et donc leur distribution sera une approximation de la distribution de .yεεε^=yXβ^β^ε^εε

Ruben van Bergen
la source
Il s'agit d'un bon résumé rapide des éléments standard, mais il semble manquer une caractéristique clé de cette question, à savoir qu'avec une réponse asymétrique mais non nulle, cette forme fonctionnelle est peu susceptible d'être une bonne idée. Pour éviter les prédictions négatives, et pour d'autres raisons, la régression de Poisson semble un meilleur point de départ.
Nick Cox
8

La reponse courte est oui.

Tout d'abord (comme le souligne Ruben van Bergen), la distribution de (ou , d'ailleurs) n'est pas pertinente. Si vous deviez faire une supposition distributionnelle, ce serait sur votre résidus , c'est donc ce que vous devriez vérifier.yXε

Mais plus important encore, vous n'avez pas du tout besoin de l'hypothèse de normalité pour que votre estimation fonctionne. Vous utilisez la lmfonction de R , qui estime votre modèle à l'aide des moindres carrés ordinaires (OLS) . Cette méthode vous donnera une estimation correcte de l'espérance de conditionnelle à tant que:YX

  • E[ε|X]=0 (aucun facteur externe n'affecte à la fois votre résultat et vos variables explicatives).
  • Var(ε)< (vos résidus ont une variance finie).

Si vous faites en outre l'hypothèse que vos résidus ne sont pas corrélés et qu'ils ont tous la même variance, alors le théorème de Gauss-Markov s'applique et l'OLS est le meilleur estimateur linéaire sans biais (BLEU).

Si vos résidus sont corrélés ou ont des variances différentes, l'OLS fonctionne toujours mais il peut être moins précis, ce qui doit se refléter dans la façon dont vous déclarez les intervalles de confiance de vos estimations (en utilisant, par exemple, des erreurs-types robustes ).

Si vous supposez également que vos résidus sont normalement distribués, l'OLS devient asymptotiquement efficace car il équivaut à la probabilité maximale.

Ainsi, la régression peut mieux fonctionner si vos données sont normalement distribuées, mais elle fonctionnera toujours si elles ne le sont pas.

Thomas
la source