Normalité de variable dépendante = normalité des résidus?

34

Cette question semble avoir toujours sa tête laide et j'essaie de la décapiter pour ma propre compréhension des statistiques (et de la santé mentale!).

Les hypothèses des modèles linéaires généraux (test t, ANOVA, régression, etc.) incluent "l'hypothèse de normalité", mais j'ai constaté que celle-ci est rarement décrite clairement.

Je rencontre souvent des manuels de statistiques, etc., indiquant simplement que "l'hypothèse de normalité" s'applique à chaque groupe (c'est-à-dire aux variables catégorielles X) et nous devrions examiner les écarts par rapport à la normalité pour chaque groupe .

Questions :

  1. l'hypothèse fait-elle référence aux valeurs de Y ou aux résidus de Y?

  2. pour un groupe particulier , est-il possible d'avoir une distribution fortement non normale des valeurs de Y (par exemple, asymétrique) MAIS une distribution approximative (ou du moins plus normale) des résidus de Y?

    D’autres sources indiquent que l’hypothèse concerne les résidus du modèle (dans les cas où il existe des groupes, par exemple tests t / ANOVA), et nous devrions examiner les écarts de normalité de ces résidus (c’est-à-dire un seul tracé / test QQ à courir).

  3. La normalité des résidus pour le modèle implique-t-elle la normalité des résidus pour les groupes ? En d'autres termes, devrions-nous simplement examiner les résidus du modèle (contrairement aux instructions de nombreux textes)?

    Pour mettre cela dans un contexte, considérons cet exemple hypothétique:

    • Je veux comparer la hauteur des arbres (Y) entre deux populations (X).
    • Dans une population, la distribution de Y est fortement asymétrique à droite (c.-à-d. Que la plupart des arbres sont courts, très peu grands), tandis que l'autre est pratiquement normale
    • La taille est globalement plus élevée dans la population normalement distribuée (ce qui suggère qu'il pourrait y avoir une différence «réelle»).
    • La transformation des données n'améliore pas substantiellement la distribution de la première population.
  4. Premièrement, est-il valide de comparer les groupes étant donné les distributions de hauteur radicalement différentes?

  5. Comment puis-je aborder "l'hypothèse de normalité" ici? La hauteur de rappel dans une population n’est pas normalement distribuée. Est-ce que j'examine les résidus des deux populations séparément OU les résidus du modèle (test t)?


Veuillez vous référer aux questions numérotées dans les réponses. L’expérience m’a montré que les gens se perdaient ou se détournaient facilement (surtout moi!). N'oubliez pas que je ne suis pas statisticien. même si j’ai une compréhension assez conceptuelle (c’est-à-dire non technique!) des statistiques.

PS, j'ai parcouru les archives et lu les sujets suivants qui n'ont pas conforté ma compréhension:

DeanP
la source
2
" Question 1) l'hypothèse se réfère-t-elle aux valeurs de Y ou aux résidus de Y? " - À proprement parler, ni l'une ni l'autre , bien que la seconde soit la chose que vous vérifiez . Ce qui est supposé normal est soit les erreurs non observables , soit de manière équivalente la distribution conditionnelle de Y à chaque combinaison de prédicteurs. La distribution inconditionnelle de Y n'est pas supposée être normale.
Glen_b -Reinstate Monica
1
+1 Merci d'avoir fait l'effort d'organiser et de consolider certains des (nombreux) thèmes dans lesquels ce problème se pose; c'est certainement une FAQ.
whuber
Je voudrais juste vous remercier pour cette question. Les sujets abordés sont abordés, ainsi que leur organisation et leur lien. Je suis conscient que vous avez posé cette question il y a longtemps, mais c'est une très bonne question!
Hmmmm

Réponses:

14

Un point qui peut aider votre compréhension:

Si est normalement distribué et que a et b sont des constantes, alors y = x - axab est aussi normalement distribué (mais avec une moyenne et une variance éventuellement différentes).y=xab

Puisque les résidus ne sont que les valeurs y moins la moyenne estimée (les résidus standardisés sont également divisés par une estimation de l'erreur standard), si les valeurs y sont distribuées normalement, les résidus le sont également et inversement. Ainsi, lorsque nous parlons de théorie ou d’hypothèses, peu importe de quoi nous parlons car l’un implique l’autre.

Donc, pour les questions, cela conduit à:

  1. oui les deux
  2. Non (toutefois, les valeurs y individuelles proviendront de normales ayant différents moyens, ce qui peut les rendre anormales si elles sont regroupées)
  3. La normalité des résidus signifie la normalité des groupes, mais il peut être bon d’examiner les résidus ou les valeurs de y par groupes dans certains cas (le regroupement peut masquer une non-normalité évidente dans un groupe) ou une recherche globale dans d’autres cas (observations insuffisantes) par groupe pour déterminer, mais vous pouvez le dire tous ensemble).
  4. Cela dépend de ce que vous entendez par comparaison, de la taille de votre échantillon et de vos sentiments sur "Approximatif". L’hypothèse de normalité n’est requise que pour les tests / intervalles sur les résultats, vous pouvez ajuster le modèle et décrire les estimations ponctuelles s’il existe ou non une normalité. Le théorème de la limite centrale dit que si la taille de l'échantillon est suffisamment grande, les estimations seront à peu près normales, même si les résidus ne le sont pas.
  5. Cela dépend de la question à laquelle vous essayez de répondre et de la "approximation" avec laquelle vous êtes satisfait.

Un autre point important à comprendre (mais qui est souvent confondu dans l’apprentissage) est qu’il existe deux types de résidus: les résidus théoriques, qui sont les différences entre les valeurs observées et le modèle théorique réel, et les résidus observés, qui sont les différences. entre les valeurs observées et les estimations du modèle ajusté actuellement. Nous supposons que les résidus théoriques sont iid normaux. Les résidus observés ne sont pas i, i ou distribués normaux (mais ont une moyenne de 0). Cependant, pour des raisons pratiques, les résidus observés estiment les résidus théoriques et sont donc toujours utiles pour le diagnostic.

Greg Snow
la source
Pour plus d'informations sur les erreurs et les résidus, je pense qu'il est utile de lire cet article sur le wiki en.wikipedia.org/wiki/Errors_and_residuals
Lil'Lobster le
1
yy^
y est les "valeurs y" et y^ est "la moyenne estimée" des valeurs de y pour cet ensemble de prédicteurs (et -est "moins").
Greg Snow
Sur Q1 (ce qui est en quelque sorte reconnu dans la réponse à Q2): Clairement, ce sont les résidus et non les Y du tout. Lorsque les covariables diffèrent entre les observations, vous pouvez facilement avoir une distribution marginale bimodale, même si les résidus sont normaux. Par conséquent, on ne peut pas simplement regarder les Y, mais seulement les résidus.
Björn
@ Bjorn, c'est une bonne clarification. Les variables y étant normales, conditionnées par x, les valeurs y brutes sont un mélange de normales et un graphique ne contenant que les valeurs y peut ne pas montrer la normalité même si elles correspondent à l'hypothèse d'une condition normale à x. Pour les diagnostics, nous utilisons généralement les résidus (car la partie conditionnelle a été en grande partie supprimée). L'hypothèse de normalité (conditionnelle) fait référence à la fois aux résidus théoriques et aux valeurs de y.
Greg Snow
7

Les réponses courtes:

  1. résidus
  2. non
  3. dépend, les deux approches ont des avantages et des inconvénients
  4. pourquoi pas? Il peut être plus logique de comparer les médianes au lieu des moyennes.
  5. d'après ce que vous nous avez dit, l'hypothèse de normalité est probablement violée

La réponse la plus longue:

L'hypothèse est que la variable dépendante (y) est normalement distribuée mais avec des moyennes différentes pour différents groupes. En conséquence, si vous tracez uniquement la distribution de y, elle peut facilement sembler très différente de votre courbe normale en forme de cloche standard. Les résidus représentent la distribution de y avec ces différences de moyennes "filtrées".

Alternativement, vous pouvez regarder la distribution de y dans chaque groupe séparément. Cela permet également de filtrer les différences de moyennes entre les groupes. L'avantage est que vous obtenez ainsi également des informations sur la distribution dans chaque groupe, ce qui, dans votre cas, semble pertinent. L'inconvénient est que chaque groupe contient moins d'observations que l'ensemble de données combiné que vous obtiendrez en examinant les résidus. De plus, vous ne pourrez pas comparer les groupes de manière significative si vous avez plusieurs groupes, par exemple parce que vous avez entré de nombreuses variables prédictives dans votre modèle ou une variable prédictive (quasi) continue dans votre modèle. Par conséquent, si votre modèle ne comprend qu'une seule variable prédictive catégorique et que le nombre d'observations dans chaque groupe est suffisant, il peut s'avérer utile de contrôler la distribution de y dans chaque groupe séparément.

Maarten Buis
la source
7
Strictly, the residuals are only estimates of the unknown and unknowable errors or disturbances, so even if normality is correct in principle, you can't get exactly normal residuals in practice. More importantly, normality of errors is the least important assumption in these methods!
Nick Cox
@NickCox (+1) agreed on both counts
Maarten Buis
1

By definition of assumptions, the random variable Y is a linear combination of X and the residuals, all other things being constant.
If X is not stochastic, and the error terms are normal, then Y is normal and so are the residuals.

Question 1)
The assumptions refers to two things. First, to the normality of the error terms. Second, to the linearity and completeness of the model. Both things are necessary for inference. But if these assumptions are met, then both the residuals e and Y are normally distributed and the solution can be calculated quite easily, because they depend on the error terms ϵ, given X.
For example the distribution of Y in a regular OLS model might be Y|XN(Xβ,σ2).
If your X group is not normal, then this will potentially skew the unconditional Y. In fact this is very likely to happen. However, the important thing is that the distribution of Y|X is normal.

Questions 2)
Yes it is possible to have skewed values for Y because of the X. Yet, the residuals will be normal if all assumptions are met (how else could you do intervals and hypothesis testing?!). For this part of your question there is a pretty definitive answer in this thread: What if residuals are normally distributed, but y is not?

Question 3)
The important thing for using linear models requiring normality is that residuals which are not normal, wgether this is in a group or not, are an important indicator that your model might not fit your data.
If you are doing ANOVA, then of course your overall residuals don't have to be normal (or rather homoscedastic), that wouldn't make sense. In a regression though, you better have a model with ends up with overall normal residuals. If not, your interval estimators and tests will be wrong. This may be the case of certain autocorrelations, or a missing variable bias. If the model is 100% correct (including maybe structural breaks and weighting if necessary), it is not far fetched to assume normal error terms, even centered around 0. Practically the question often becomes: Can we get away with these things if the sample is large enough? There is no definitive answer, but for a 100% correct approach yes, all residuals should be normal.

Question 4 & 5)
It depends on what you mean by comparing. Given the assumption of normal error terms, you can test based on the the assumption of two different distributions. You can also use GLS estimation for a regression to account for the different distribution parameters - IF you have the right model... and I guess your groups themselves work as an indicator/binary variable?
Then it would probably be very hard to reason that the distribution of residuals will be normal - consequence is that while you can do stuff with your data, it will not be on the basis of regular OLS.
But it depends on what you want to do with the data.

The important thing is though: You still do not get to go around the assumptions of the linear model you are using. You can make issues better by assuming asymptotic large sample properties, but if I guess since you are asking for a definitive answer that is not what you have in mind.
In the case of your example, if you have data which might explain the skewedness you will regain normality in your residuals and in Y|X. But if you are just using binary indicators for a regression, you are essentially using the wrong model. You can indeed do tests with this, but when it comes to regression your interval results will be invalid, essentially you are missing data for a complete model.

I think a good approach would be to look into the algebra of regular OLS with a focus on the resulting distributions.

IMA
la source