Le contexte:
Dans une question précédente, @Robbie a demandé dans une étude portant sur environ 600 cas pourquoi les tests de normalité suggéraient une non-normalité significative alors que les graphiques suggéraient des distributions normales . Plusieurs personnes ont souligné que les tests de signification de la normalité ne sont pas très utiles. Avec de petits échantillons, ces tests n'ont pas beaucoup de pouvoir pour détecter des violations légères de la normalité et avec de grands échantillons, ils détecteront des violations de la normalité qui sont suffisamment petites pour ne pas être préoccupantes.
Il me semble que ce problème est similaire au débat sur les tests de signification et la taille des effets. Si vous vous concentrez uniquement sur les tests de signification, lorsque vous avez de gros échantillons, vous pouvez détecter de petits effets qui ne sont pas pertinents à des fins pratiques, et avec de petits échantillons, vous n'avez pas suffisamment de puissance.
Dans quelques cas, j'ai même vu des manuels informer les gens que vous pouvez avoir un échantillon "trop grand", car les petits effets seront statistiquement significatifs.
Dans le contexte des tests de signification et de la taille des effets, une solution simple consiste à se concentrer sur l'estimation de la taille de l'effet d'intérêt, plutôt que d'être obsédé par la règle de décision binaire pour savoir s'il y a ou non un effet. Les intervalles de confiance sur la taille des effets sont une de ces approches, ou vous pouvez adopter une forme d'approche bayésienne. En outre, divers domaines de recherche construisent des idées sur ce que signifie une taille d'effet donnée dans un sens pratique, pour le meilleur ou pour le pire, en appliquant des étiquettes heuristiques telles que "petit", "moyen" et "grand effet". Cela conduit également à la recommandation intelligente de maximiser la taille de l'échantillon afin de maximiser la précision dans l'estimation d'un paramètre d'intérêt donné.
Cela me fait me demander pourquoi une approche similaire basée sur des intervalles de confiance des tailles d'effet n'est pas plus largement adoptée en relation avec le test d'hypothèse, et le test de normalité en particulier.
Question:
- Quel est le meilleur indice unique du degré auquel les données violent la normalité?
- Ou est-il simplement préférable de parler de plusieurs indices de violation de la normalité (par exemple, asymétrie, kurtosis, prévalence des valeurs aberrantes)?
- Comment calculer les intervalles de confiance (ou peut-être une approche bayésienne) pour l'indice?
- Quel type d'étiquettes verbales pourriez-vous attribuer aux points de cet indice pour indiquer le degré de violation de la normalité (p. Ex. Léger, modéré, fort, extrême, etc.)? Le but de ces étiquettes pourrait être d'aider les analystes ayant moins d'expérience à former leur intuition lorsque les violations de la normalité sont problématiques.
la source
Réponses:
A) Quel est le meilleur indice unique du degré auquel les données violent la normalité?
B) Ou est-il simplement préférable de parler de plusieurs indices de violation de la normalité (par exemple, asymétrie, kurtosis, prévalence aberrante)?
Je voterais pour B. Différentes violations ont des conséquences différentes. Par exemple, des distributions unimodales et symétriques avec des queues lourdes rendent vos CI très larges et réduisent probablement la puissance de détection des effets. Cependant, la moyenne atteint toujours la valeur "typique". Pour des distributions très asymétriques, la moyenne par exemple, pourrait ne pas être un indice très sensible de "la valeur typique".
C) Comment calculer les intervalles de confiance (ou peut-être une approche bayésienne) pour l'indice?
Je ne connais pas les statistiques bayésiennes, mais concernant le test classique de normalité, je voudrais citer Erceg-Hurn et al. (2008) [2]:
D) Quel type d'étiquettes verbales pourriez-vous attribuer aux points de cet indice pour indiquer le degré de violation de la normalité (p. Ex., Léger, modéré, fort, extrême, etc.)?
Micceri (1989) [1] a analysé 440 ensembles de données à grande échelle en psychologie. Il a évalué la symétrie et le poids de la queue et a défini des critères et des étiquettes. Les étiquettes d'asymétrie vont de «relativement symétrique» à «modérée -> extrême -> asymétrie exponentielle». Les étiquettes pour le poids de la queue vont de «Uniforme -> inférieur à gaussien -> À propos de gaussien -> Modéré -> Extrême -> Double contamination exponentielle». Chaque classification est basée sur de multiples critères robustes.
Il a découvert que sur ces 440 ensembles de données, seulement 28% étaient relativement symétriques et seulement 15% étaient gaussiens concernant le poids de la queue. D'où le joli titre de l'article:
J'ai écrit une
R
fonction, qui évalue automatiquement les critères de Micceri et imprime également les étiquettes:Voici un test pour la distribution normale standard, un avec 8 df et un log-normal:t
[1] Micceri, T. (1989). La licorne, la courbe normale et d'autres créatures improbables. Bulletin psychologique, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156
[2] Erceg-Hurn, DM et Mirosevich, VM (2008). Méthodes statistiques robustes modernes: un moyen facile de maximiser la précision et la puissance de votre recherche. Psychologue américain, 63 , 591-601.
la source