Dérogation à l'hypothèse de normalité dans l'ANOVA: le kurtosis ou l'asymétrie est-il plus important?

Modèles statistiques linéaires appliqués par Kutner et al. énonce ce qui suit concernant les écarts par rapport à l'hypothèse de normalité des modèles ANOVA: le kurtosis de la distribution d'erreur (soit plus ou moins atteint un pic qu'une distribution normale) est plus important que l'asymétrie de la distribution en termes d'effets sur les inférences .

Je suis un peu perplexe par cette déclaration et je n'ai pas réussi à trouver des informations connexes, que ce soit dans le livre ou en ligne. Je suis confus parce que j'ai également appris que les parcelles QQ à queue lourde sont une indication que l'hypothèse de normalité est "assez bonne" pour les modèles de régression linéaire, tandis que les parcelles QQ asymétriques sont plus préoccupantes (c'est-à-dire qu'une transformation pourrait être appropriée) .

Ai-je raison de dire que le même raisonnement vaut pour l'ANOVA et que leur choix de mots ( plus important en termes d'effets sur les inférences ) vient d'être mal choisi? C'est-à-dire qu'une distribution asymétrique a des conséquences plus graves et doit être évitée, alors qu'une petite quantité de kurtosis peut être acceptable.

EDIT: Comme adressé par rolando2, il est difficile de dire que l'un est plus important que l'autre dans tous les cas, mais je cherche simplement un aperçu général. Mon principal problème est que l'on m'a appris qu'en simple régression linéaire, les parcelles QQ avec des queues plus lourdes (= kurtosis?) Sont OK, car le test F est assez robuste contre cela. D'un autre côté, les parcelles QQ asymétriques (en forme de parabole) sont généralement plus préoccupantes. Cela semble aller directement à l'encontre des directives que mon manuel prévoit pour l'ANOVA, même si les modèles d'ANOVA peuvent être convertis en modèles de régression et devraient avoir les mêmes hypothèses.

Je suis convaincu d'oublier quelque chose ou j'ai une fausse hypothèse, mais je ne peux pas comprendre ce que cela pourrait être.

anova normality-assumption skewness kurtosis Zenit
la source

Dans sa revue de kurtosis, DeCarlo (1997) a suggéré l'exact opposé, que le biais était plus important dans l'ANOVA et d'autres tests d'égalité des moyens. Vous pourriez trouver les citations de la page 297 utiles: columbia.edu/~ld208/psymeth97.pdf

Anthony

Je trouverais la question plus productive si elle pouvait être résolue en une déclaration telle que "l'asymétrie est tellement plus importante pour les déductions que la kurtose que l'asymétrie au niveau de ___ fausserait généralement les résultats autant que la kurtose au niveau de ___ . " Sans une telle quantification, le simple fait de dire que l'un ou l'autre est plus important ne nous aide pas beaucoup.

rolando2

Cette simulation emis.de/journals/HOA/ADS/Volume7_4/206.pdf de Khan et Rayner (2003) dans JOURNAL OF APPLIED MATHEMATICS AND DECISION SCIENCES indique que «les tests ANOVA et Kruskal-Wallis sont tous deux beaucoup plus affectés par la kurtosis de la distribution des erreurs plutôt que par son asymétrie "(p. 204).

bsbk

Stats.stackexchange.com/questions/38967/… ... Une question extrêmement étroitement liée au test t à deux échantillons - en fait une ANOVA unidirectionnelle avec deux niveaux dans le facteur - est actuellement une prime à ajouter les références car aucune des réponses existantes ne contient de citations, donc les personnes qui répondent à cette question voudront peut-être y jeter un œil.

Silverfish

Je suis d'accord avec @ rolando2: "l'asymétrie est pire que le kurtosis" ou vice versa est une déclaration plutôt vide de sens sans mentionner le degré d'asymétrie / kurtosis. Mais il faut aussi considérer plus! Par exemple, la robustesse à ces types de violations de la normalité dépend en partie du fait que les tailles de groupe sont égales , et la robustesse à l'asymétrie peut dépendre de la direction de l'asymétrie - c'est pire si un groupe est asymétrique dans un sens, et l'autre groupe biaise le contraire, que si les deux groupes étaient biaisés dans la même direction. (Cela vient de la mémoire et des re-tests mais c'est un type d'ANOVA.)

Silverfish

Réponses:

La difficulté est que l'asymétrie et le kurtosis sont dépendants; leurs effets ne peuvent pas être complètement séparés.

Le problème est que si vous voulez examiner l'effet d'une distribution fortement asymétrique, vous devez également avoir une distribution avec un kurtosis élevé.

En particulier, kurtosis * skewness . $\geq$ $^2+1$

* (kurtosis au quatrième moment à l'échelle ordinaire, pas un kurtosis excessif)

Khan et Rayner (qui sont mentionnés dans la réponse précédente) travaillent avec une famille qui permet une certaine exploration de l'impact de l'asymétrie et du kurtosis, mais ils ne peuvent pas éviter ce problème, donc leur tentative de les séparer limite sévèrement la mesure dans laquelle l'effet de l'asymétrie peut être explorée.

Si l'on maintient la constante de kurtosis ( ), on ne peut pas rendre l'asymétrie supérieure à . Si l'on souhaite considérer des distributions unimodales, l'asymétrie est encore plus restreinte. $\beta_2$ $\sqrt{\beta_2-1}$

Par exemple, si vous voulez voir l'effet d'une asymétrie élevée - disons une asymétrie> 5, vous ne pouvez pas obtenir une distribution avec kurtosis inférieure à 26!

Donc, si vous souhaitez étudier l'impact d'une asymétrie élevée, vous ne pouvez pas éviter d'enquêter sur l'impact d'une kurtose élevée. Par conséquent, si vous essayez de les séparer, vous vous tenez en fait incapable d'évaluer l'effet de l'augmentation de l'asymétrie à des niveaux élevés.

Cela dit, au moins pour la famille de distribution qu'ils considéraient, et dans les limites que la relation entre eux pose, l'enquête de Khan et Rayner semble suggérer que la kurtosis est le principal problème.

Cependant, même si la conclusion est tout à fait générale, si vous avez une distribution avec (disons) asymétrie 5, il est probable que ce soit peu rassurant de dire "mais ce n'est pas l'asymétrie qui est le problème!" - une fois que votre asymétrie est , vous ne pouvez pas obtenir un kurtosis comme celui de la normale, et au-delà, le kurtosis minimum possible augmente rapidement avec l'augmentation de l'asymétrie. $>\sqrt{2}$

Glen_b -Reinstate Monica
la source

Ce problème est résolu dans «Robustesse à la non-normalité des tests courants pour le problème de localisation à plusieurs échantillons» par Khan et Rayner.

Ils ont découvert que les tests ANOVA sont beaucoup plus affectés par le kurtosis que par l'asymétrie, et l'effet de l'asymétrie n'est pas lié à sa direction.

Si des écarts par rapport à la normalité sont suspectés, le test de Kruskal-Wallis pourrait être un meilleur choix. Le test de Kruskal-Wallis est plus robuste aux écarts par rapport à la normalité car il examine l'hypothèse que les médianes de traitement sont identiques. L'ANOVA examine l'hypothèse que les moyens de traitement sont identiques.

Brian Spiering
la source

Est-ce que cela indique également que je devrais interpréter différemment les tracés QQ pour la régression linéaire et l'ANOVA? La majorité des transformations que j'ai faites ont réduit l'asymétrie, mais ont laissé des queues légèrement lourdes (= kurtosis?). J'avais l'impression que le test F était suffisamment robuste pour traiter ce dernier mais pas le premier. Ou est-ce que "les queues lourdes sont OK" est un malentendu de ma part? Je ne peux pas imaginer qu'il existe une différence aussi fondamentale entre les deux, car les modèles ANOVA peuvent également être réécrits sous forme de modèles de régression linéaire.

Zenit