Les X et Y normalement distribués sont-ils plus susceptibles d'entraîner des résidus normalement distribués?

12

Ici, la mauvaise interprétation de l'hypothèse de normalité dans la régression linéaire est discutée (que la `` normalité '' fait référence au X et / ou au Y plutôt qu'aux résidus), et l'affiche demande s'il est possible d'avoir X et Y non distribués normalement et ont encore des résidus normalement distribués.

Ma question est la suivante: les X et Y normalement distribués sont-ils plus susceptibles d'entraîner des résidus normalement distribués? Il y a eu beaucoup de messages connexes, mais je ne crois pas que quiconque ait posé cette question spécifiquement.

Je me rends compte que c'est peut-être un point trivial s'il n'y a qu'une seule régression à faire, mais moins s'il y a plusieurs tests. Disons que j'ai 100 variables X qui ont toutes le même biais et je veux les tester toutes. Si je les transformais tous en une distribution normale, est-ce que j'aurais probablement moins de variables X à réexaminer (avec une transformation différente / aucune) en raison de résidus non distribués normalement ou une transformation de pré-régression serait-elle totalement arbitraire?

Scott
la source
1
Pour répondre «plus probable», nous aurions sans doute à poser quelque chose sur la distribution conjointe, pas seulement sur les marges.
Glen_b -Reinstate Monica

Réponses:

15

Non. Les résidus sont les valeurs conditionnelles à (moins la moyenne prévue de à chaque point de ). Vous pouvez modifier comme vous le souhaitez ( , , ) et les valeurs qui correspondent aux valeurs à un point donné de ne changeront pas. Ainsi, la distribution conditionnelle de (c'est-à-dire ) sera la même. Autrement dit, ce sera normal ou non, comme auparavant. (Pour mieux comprendre ce sujet, il peut vous être utile de lire ma réponse ici:X Y X X X + 10 X - 1 / 5 X / π Y X X Y Y | XYXYXXX+10X1/5X/πYXXYY|XEt si les résidus sont normalement distribués, mais Y ne l'est pas? )

Qu'est - ce que le changement peut faire (selon la nature de la transformation de données que vous utilisez) est de changer la relation fonctionnelle entre et . Avec un changement non linéaire de (par exemple, pour supprimer le biais), un modèle qui a été correctement spécifié auparavant deviendra mal spécifié. Les transformations non linéaires de sont souvent utilisées pour linéariser la relation entre et , pour rendre la relation plus interprétable ou pour répondre à une question théorique différente. X Y X X X YXXYXXXY

Pour en savoir plus sur la façon dont les transformations non linéaires peuvent changer le modèle et les questions auxquelles le modèle répond (en mettant l'accent sur la transformation du journal), cela peut vous aider à lire ces excellents fils de CV:

Les transformations linéaires peuvent modifier les valeurs de vos paramètres, mais n'affectent pas la relation fonctionnelle. Par exemple, si vous et avant d'exécuter la régression, l'interception, , deviendra . De même, si vous divisez par une constante (par exemple pour changer de centimètres en mètres) la pente sera multipliée par cette constante (par exemple, , c'est-à-dire que augmentera 100 fois plus sur 1 mètre que sur 1 cm). Y ß 0 0 X β 1 ( m ) = 100 × β 1 ( c m ) YXYβ^00Xβ^1 (m)=100×β^1 (cm)Y


D'autre part, les transformations non-linéaires de vont affecter la distribution des résidus. En fait, la transformation de est une suggestion courante pour normaliser les résidus. Le fait qu'une telle transformation les rendrait plus ou moins normaux dépend de la distribution initiale des résidus (et non de la distribution initiale de ) et de la transformation utilisée. Une stratégie courante consiste à optimiser le paramètre de la famille de distributions Box-Cox. Une mise en garde s'impose ici: les transformations non linéaires de peuvent rendre votre modèle mal spécifié, tout comme les transformations non linéaires de peuvent. Y Y λ Y XY YYλYX


Maintenant, si les deux et sont normaux? En fait, cela ne garantit même pas que la distribution conjointe sera normale bivariée (voir l'excellente réponse de @ cardinal ici: est-il possible d'avoir une paire de variables aléatoires gaussiennes pour lesquelles la distribution conjointe n'est pas gaussienne ). YXY

Bien sûr, celles-ci semblent être des possibilités plutôt étranges, alors que se passe-t-il si les distributions marginales semblent normales et la distribution conjointe semble également bivariée normale, cela nécessite-t-il que les résidus soient également distribués normalement? Comme je l' ai essayé de montrer dans ma réponse que je lien ci - dessus, si les résidus sont normalement distribués, la normalité de dépend de la distribution de . Cependant, il n'est pas vrai que la normalité des résidus soit dictée par la normalité des marginaux. Considérez cet exemple simple (codé avec ): XYXR

set.seed(9959)              # this makes the example exactly reproducible
x = rnorm(100)              # x is drawn from a normal population
y = 7 + 0.6*x + runif(100)  # the residuals are drawn from a uniform population

mod = lm(y~x)
summary(mod)
# Call:
# lm(formula = y ~ x)
# 
# Residuals:
#     Min      1Q  Median      3Q     Max 
# -0.4908 -0.2250 -0.0292  0.2539  0.5303 
# 
# Coefficients:
#             Estimate Std. Error t value Pr(>|t|)    
# (Intercept)  7.48327    0.02980   251.1   <2e-16 ***
# x            0.62081    0.02971    20.9   <2e-16 ***
# ---
# Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# 
# Residual standard error: 0.2974 on 98 degrees of freedom
# Multiple R-squared:  0.8167,  Adjusted R-squared:  0.8148 
# F-statistic: 436.7 on 1 and 98 DF,  p-value: < 2.2e-16

entrez la description de l'image ici

Dans les graphiques, nous voyons que les deux marginaux semblent raisonnablement normaux, et la distribution conjointe semble normale bivariée. Néanmoins, l'uniformité des résidus apparaît dans leur qq-plot; les deux queues tombent trop rapidement par rapport à une distribution normale (comme elles doivent en effet).

gung - Réintégrer Monica
la source
0

La réponse courte est dans la théorie de régression simple classique, X est fixe et supposé connu (voir, par exemple, http://www.theanalysisfactor.com/the-distribution-of-independent-variables-in-regression-models-2/ ), même sans erreur de mesure, votre version bêta des moindres carrés pourrait être biaisée et même incohérente (voir https://www.google.com/url?sa=t&source=web&rct=j&ei=Bd3sU4_kHfPjsATAm4LADA&url=https://files.nyu .edu / mrg217 / public / measure_handouts.pdf & cd = 2 & ved = 0CCMQFjAB & usg = AFQjCNF_pZvocW1SzInQPYpQTifUsQ36kQ & sig2 = 4lAnOQO23FiZbZ7323jOzA ).

Pour ce qui est de faire de X une variable, Wikipedia sur le théorème de Gauss-Markov déclare très brièvement, pour citer:

"Dans la plupart des traitements de l'OLS, les données X sont supposées fixes. Cette hypothèse est considérée comme inappropriée pour une science essentiellement non expérimentale comme l'économétrie. [2] Au lieu de cela, les hypothèses du théorème de Gauss-Markov sont énoncées conditionnellement à X "

que je lis comme une transformation peu flatteuse de la science à l'art, ou à l'art / science.

AJKOER
la source