Modèles statistiques linéaires appliqués par Kutner et al. énonce ce qui suit concernant les écarts par rapport à l'hypothèse de normalité des modèles ANOVA: le kurtosis de la distribution d'erreur (soit plus ou moins atteint un pic qu'une distribution normale) est plus important que l'asymétrie de la distribution en termes d'effets sur les inférences .
Je suis un peu perplexe par cette déclaration et je n'ai pas réussi à trouver des informations connexes, que ce soit dans le livre ou en ligne. Je suis confus parce que j'ai également appris que les parcelles QQ à queue lourde sont une indication que l'hypothèse de normalité est "assez bonne" pour les modèles de régression linéaire, tandis que les parcelles QQ asymétriques sont plus préoccupantes (c'est-à-dire qu'une transformation pourrait être appropriée) .
Ai-je raison de dire que le même raisonnement vaut pour l'ANOVA et que leur choix de mots ( plus important en termes d'effets sur les inférences ) vient d'être mal choisi? C'est-à-dire qu'une distribution asymétrique a des conséquences plus graves et doit être évitée, alors qu'une petite quantité de kurtosis peut être acceptable.
EDIT: Comme adressé par rolando2, il est difficile de dire que l'un est plus important que l'autre dans tous les cas, mais je cherche simplement un aperçu général. Mon principal problème est que l'on m'a appris qu'en simple régression linéaire, les parcelles QQ avec des queues plus lourdes (= kurtosis?) Sont OK, car le test F est assez robuste contre cela. D'un autre côté, les parcelles QQ asymétriques (en forme de parabole) sont généralement plus préoccupantes. Cela semble aller directement à l'encontre des directives que mon manuel prévoit pour l'ANOVA, même si les modèles d'ANOVA peuvent être convertis en modèles de régression et devraient avoir les mêmes hypothèses.
Je suis convaincu d'oublier quelque chose ou j'ai une fausse hypothèse, mais je ne peux pas comprendre ce que cela pourrait être.
Réponses:
La difficulté est que l'asymétrie et le kurtosis sont dépendants; leurs effets ne peuvent pas être complètement séparés.
Le problème est que si vous voulez examiner l'effet d'une distribution fortement asymétrique, vous devez également avoir une distribution avec un kurtosis élevé.
En particulier, kurtosis * skewness .≥ 2+ 1
* (kurtosis au quatrième moment à l'échelle ordinaire, pas un kurtosis excessif)
Khan et Rayner (qui sont mentionnés dans la réponse précédente) travaillent avec une famille qui permet une certaine exploration de l'impact de l'asymétrie et du kurtosis, mais ils ne peuvent pas éviter ce problème, donc leur tentative de les séparer limite sévèrement la mesure dans laquelle l'effet de l'asymétrie peut être explorée.
Si l'on maintient la constante de kurtosis ( ), on ne peut pas rendre l'asymétrie supérieure à . Si l'on souhaite considérer des distributions unimodales, l'asymétrie est encore plus restreinte.β2 β2- 1-----√
Par exemple, si vous voulez voir l'effet d'une asymétrie élevée - disons une asymétrie> 5, vous ne pouvez pas obtenir une distribution avec kurtosis inférieure à 26!
Donc, si vous souhaitez étudier l'impact d'une asymétrie élevée, vous ne pouvez pas éviter d'enquêter sur l'impact d'une kurtose élevée. Par conséquent, si vous essayez de les séparer, vous vous tenez en fait incapable d'évaluer l'effet de l'augmentation de l'asymétrie à des niveaux élevés.
Cela dit, au moins pour la famille de distribution qu'ils considéraient, et dans les limites que la relation entre eux pose, l'enquête de Khan et Rayner semble suggérer que la kurtosis est le principal problème.
Cependant, même si la conclusion est tout à fait générale, si vous avez une distribution avec (disons) asymétrie 5, il est probable que ce soit peu rassurant de dire "mais ce n'est pas l'asymétrie qui est le problème!" - une fois que votre asymétrie est , vous ne pouvez pas obtenir un kurtosis comme celui de la normale, et au-delà, le kurtosis minimum possible augmente rapidement avec l'augmentation de l'asymétrie.> 2-√
la source
Ce problème est résolu dans «Robustesse à la non-normalité des tests courants pour le problème de localisation à plusieurs échantillons» par Khan et Rayner.
Ils ont découvert que les tests ANOVA sont beaucoup plus affectés par le kurtosis que par l'asymétrie, et l'effet de l'asymétrie n'est pas lié à sa direction.
Si des écarts par rapport à la normalité sont suspectés, le test de Kruskal-Wallis pourrait être un meilleur choix. Le test de Kruskal-Wallis est plus robuste aux écarts par rapport à la normalité car il examine l'hypothèse que les médianes de traitement sont identiques. L'ANOVA examine l'hypothèse que les moyens de traitement sont identiques.
la source