Cette question semble avoir toujours sa tête laide et j'essaie de la décapiter pour ma propre compréhension des statistiques (et de la santé mentale!).
Les hypothèses des modèles linéaires généraux (test t, ANOVA, régression, etc.) incluent "l'hypothèse de normalité", mais j'ai constaté que celle-ci est rarement décrite clairement.
Je rencontre souvent des manuels de statistiques, etc., indiquant simplement que "l'hypothèse de normalité" s'applique à chaque groupe (c'est-à-dire aux variables catégorielles X) et nous devrions examiner les écarts par rapport à la normalité pour chaque groupe .
Questions :
l'hypothèse fait-elle référence aux valeurs de Y ou aux résidus de Y?
pour un groupe particulier , est-il possible d'avoir une distribution fortement non normale des valeurs de Y (par exemple, asymétrique) MAIS une distribution approximative (ou du moins plus normale) des résidus de Y?
D’autres sources indiquent que l’hypothèse concerne les résidus du modèle (dans les cas où il existe des groupes, par exemple tests t / ANOVA), et nous devrions examiner les écarts de normalité de ces résidus (c’est-à-dire un seul tracé / test QQ à courir).
La normalité des résidus pour le modèle implique-t-elle la normalité des résidus pour les groupes ? En d'autres termes, devrions-nous simplement examiner les résidus du modèle (contrairement aux instructions de nombreux textes)?
Pour mettre cela dans un contexte, considérons cet exemple hypothétique:
- Je veux comparer la hauteur des arbres (Y) entre deux populations (X).
- Dans une population, la distribution de Y est fortement asymétrique à droite (c.-à-d. Que la plupart des arbres sont courts, très peu grands), tandis que l'autre est pratiquement normale
- La taille est globalement plus élevée dans la population normalement distribuée (ce qui suggère qu'il pourrait y avoir une différence «réelle»).
- La transformation des données n'améliore pas substantiellement la distribution de la première population.
Premièrement, est-il valide de comparer les groupes étant donné les distributions de hauteur radicalement différentes?
Comment puis-je aborder "l'hypothèse de normalité" ici? La hauteur de rappel dans une population n’est pas normalement distribuée. Est-ce que j'examine les résidus des deux populations séparément OU les résidus du modèle (test t)?
Veuillez vous référer aux questions numérotées dans les réponses. L’expérience m’a montré que les gens se perdaient ou se détournaient facilement (surtout moi!). N'oubliez pas que je ne suis pas statisticien. même si j’ai une compréhension assez conceptuelle (c’est-à-dire non technique!) des statistiques.
PS, j'ai parcouru les archives et lu les sujets suivants qui n'ont pas conforté ma compréhension:
- ANOVA hypothèse normalité / distribution normale des résidus
- Normalité des résidus par rapport aux données de l'échantillon; qu'en est-il des tests t?
- Le test de normalité est-il «essentiellement inutile»?
- Tester la normalité
- Evaluer la normalité de la distribution
- Quels tests dois-je utiliser pour confirmer que les résidus sont normalement distribués?
- Que faire lorsque le test de Kolmogorov-Smirnov est significatif pour les résidus du test paramétrique mais que l'asymétrie et le kurtosis semblent normaux?
Réponses:
Un point qui peut aider votre compréhension:
Si est normalement distribué et que a et b sont des constantes, alors y = x - ax a b est aussi normalement distribué (mais avec une moyenne et une variance éventuellement différentes).y=x−ab
Puisque les résidus ne sont que les valeurs y moins la moyenne estimée (les résidus standardisés sont également divisés par une estimation de l'erreur standard), si les valeurs y sont distribuées normalement, les résidus le sont également et inversement. Ainsi, lorsque nous parlons de théorie ou d’hypothèses, peu importe de quoi nous parlons car l’un implique l’autre.
Donc, pour les questions, cela conduit à:
Un autre point important à comprendre (mais qui est souvent confondu dans l’apprentissage) est qu’il existe deux types de résidus: les résidus théoriques, qui sont les différences entre les valeurs observées et le modèle théorique réel, et les résidus observés, qui sont les différences. entre les valeurs observées et les estimations du modèle ajusté actuellement. Nous supposons que les résidus théoriques sont iid normaux. Les résidus observés ne sont pas i, i ou distribués normaux (mais ont une moyenne de 0). Cependant, pour des raisons pratiques, les résidus observés estiment les résidus théoriques et sont donc toujours utiles pour le diagnostic.
la source
Les réponses courtes:
La réponse la plus longue:
L'hypothèse est que la variable dépendante (y) est normalement distribuée mais avec des moyennes différentes pour différents groupes. En conséquence, si vous tracez uniquement la distribution de y, elle peut facilement sembler très différente de votre courbe normale en forme de cloche standard. Les résidus représentent la distribution de y avec ces différences de moyennes "filtrées".
Alternativement, vous pouvez regarder la distribution de y dans chaque groupe séparément. Cela permet également de filtrer les différences de moyennes entre les groupes. L'avantage est que vous obtenez ainsi également des informations sur la distribution dans chaque groupe, ce qui, dans votre cas, semble pertinent. L'inconvénient est que chaque groupe contient moins d'observations que l'ensemble de données combiné que vous obtiendrez en examinant les résidus. De plus, vous ne pourrez pas comparer les groupes de manière significative si vous avez plusieurs groupes, par exemple parce que vous avez entré de nombreuses variables prédictives dans votre modèle ou une variable prédictive (quasi) continue dans votre modèle. Par conséquent, si votre modèle ne comprend qu'une seule variable prédictive catégorique et que le nombre d'observations dans chaque groupe est suffisant, il peut s'avérer utile de contrôler la distribution de y dans chaque groupe séparément.
la source
By definition of assumptions, the random variableY is a linear combination of X and the residuals, all other things being constant.X is not stochastic, and the error terms are normal, then Y is normal and so are the residuals.
If
Question 1)e and Y are normally distributed and the solution can be calculated quite easily, because they depend on the error terms ϵ , given X .Y in a regular OLS model might be Y|X−N(Xβ,σ2) .X group is not normal, then this will potentially skew the unconditional Y . In fact this is very likely to happen. However, the important thing is that the distribution of Y|X is normal.
The assumptions refers to two things. First, to the normality of the error terms. Second, to the linearity and completeness of the model. Both things are necessary for inference. But if these assumptions are met, then both the residuals
For example the distribution of
If your
Questions 2)Y because of the X . Yet, the residuals will be normal if all assumptions are met (how else could you do intervals and hypothesis testing?!).
For this part of your question there is a pretty definitive answer in this thread:
What if residuals are normally distributed, but y is not?
Yes it is possible to have skewed values for
Question 3)
The important thing for using linear models requiring normality is that residuals which are not normal, wgether this is in a group or not, are an important indicator that your model might not fit your data.
If you are doing ANOVA, then of course your overall residuals don't have to be normal (or rather homoscedastic), that wouldn't make sense. In a regression though, you better have a model with ends up with overall normal residuals. If not, your interval estimators and tests will be wrong. This may be the case of certain autocorrelations, or a missing variable bias. If the model is 100% correct (including maybe structural breaks and weighting if necessary), it is not far fetched to assume normal error terms, even centered around 0. Practically the question often becomes: Can we get away with these things if the sample is large enough? There is no definitive answer, but for a 100% correct approach yes, all residuals should be normal.
Question 4 & 5)
It depends on what you mean by comparing. Given the assumption of normal error terms, you can test based on the the assumption of two different distributions. You can also use GLS estimation for a regression to account for the different distribution parameters - IF you have the right model... and I guess your groups themselves work as an indicator/binary variable?
Then it would probably be very hard to reason that the distribution of residuals will be normal - consequence is that while you can do stuff with your data, it will not be on the basis of regular OLS.
But it depends on what you want to do with the data.
The important thing is though: You still do not get to go around the assumptions of the linear model you are using. You can make issues better by assuming asymptotic large sample properties, but if I guess since you are asking for a definitive answer that is not what you have in mind.Y|X . But if you are just using binary indicators for a regression, you are essentially using the wrong model. You can indeed do tests with this, but when it comes to regression your interval results will be invalid, essentially you are missing data for a complete model.
In the case of your example, if you have data which might explain the skewedness you will regain normality in your residuals and in
I think a good approach would be to look into the algebra of regular OLS with a focus on the resulting distributions.
la source