Qu'est-ce qu'un bon indice du degré de violation de la normalité et quelles étiquettes descriptives pourraient être attachées à cet indice?

12

Le contexte:

Dans une question précédente, @Robbie a demandé dans une étude portant sur environ 600 cas pourquoi les tests de normalité suggéraient une non-normalité significative alors que les graphiques suggéraient des distributions normales . Plusieurs personnes ont souligné que les tests de signification de la normalité ne sont pas très utiles. Avec de petits échantillons, ces tests n'ont pas beaucoup de pouvoir pour détecter des violations légères de la normalité et avec de grands échantillons, ils détecteront des violations de la normalité qui sont suffisamment petites pour ne pas être préoccupantes.

Il me semble que ce problème est similaire au débat sur les tests de signification et la taille des effets. Si vous vous concentrez uniquement sur les tests de signification, lorsque vous avez de gros échantillons, vous pouvez détecter de petits effets qui ne sont pas pertinents à des fins pratiques, et avec de petits échantillons, vous n'avez pas suffisamment de puissance.

Dans quelques cas, j'ai même vu des manuels informer les gens que vous pouvez avoir un échantillon "trop ​​grand", car les petits effets seront statistiquement significatifs.

Dans le contexte des tests de signification et de la taille des effets, une solution simple consiste à se concentrer sur l'estimation de la taille de l'effet d'intérêt, plutôt que d'être obsédé par la règle de décision binaire pour savoir s'il y a ou non un effet. Les intervalles de confiance sur la taille des effets sont une de ces approches, ou vous pouvez adopter une forme d'approche bayésienne. En outre, divers domaines de recherche construisent des idées sur ce que signifie une taille d'effet donnée dans un sens pratique, pour le meilleur ou pour le pire, en appliquant des étiquettes heuristiques telles que "petit", "moyen" et "grand effet". Cela conduit également à la recommandation intelligente de maximiser la taille de l'échantillon afin de maximiser la précision dans l'estimation d'un paramètre d'intérêt donné.

Cela me fait me demander pourquoi une approche similaire basée sur des intervalles de confiance des tailles d'effet n'est pas plus largement adoptée en relation avec le test d'hypothèse, et le test de normalité en particulier.

Question:

  • Quel est le meilleur indice unique du degré auquel les données violent la normalité?
  • Ou est-il simplement préférable de parler de plusieurs indices de violation de la normalité (par exemple, asymétrie, kurtosis, prévalence des valeurs aberrantes)?
  • Comment calculer les intervalles de confiance (ou peut-être une approche bayésienne) pour l'indice?
  • Quel type d'étiquettes verbales pourriez-vous attribuer aux points de cet indice pour indiquer le degré de violation de la normalité (p. Ex. Léger, modéré, fort, extrême, etc.)? Le but de ces étiquettes pourrait être d'aider les analystes ayant moins d'expérience à former leur intuition lorsque les violations de la normalité sont problématiques.
Jeromy Anglim
la source
5
Question fascinante.
rolando2
1
@ Jeromy, c'est une bonne question, mais permettez-moi d'ajouter que les vérifications de modèles graphiques standard, comme un qqplot ou un tracé résiduel en régression, se concentrent, à mon avis, sur la "taille de l'effet" plutôt que sur une valeur . Dans un qqplot, je chercherais le type et l'ampleur de l'écart par rapport à une ligne droite pour guider la construction de mon modèle et non la simple détection d'un écart. Au risque de trop simplifier les choses, il pourrait cependant être utile de compléter un qqplot avec quelques "formes critiques" et leurs conséquences typiques. p
NRH
1
@NRH J'accepte; c'est ce que je fais. Cependant, je fournis souvent des conseils statistiques aux chercheurs qui ont moins d'expérience pour juger du degré de non-normalité d'un complot. Je pensais qu'un index avec différents labels qualitatifs pourrait compléter la formation d'une intuition visuelle.
Jeromy Anglim

Réponses:

13

A) Quel est le meilleur indice unique du degré auquel les données violent la normalité?

B) Ou est-il simplement préférable de parler de plusieurs indices de violation de la normalité (par exemple, asymétrie, kurtosis, prévalence aberrante)?

Je voterais pour B. Différentes violations ont des conséquences différentes. Par exemple, des distributions unimodales et symétriques avec des queues lourdes rendent vos CI très larges et réduisent probablement la puissance de détection des effets. Cependant, la moyenne atteint toujours la valeur "typique". Pour des distributions très asymétriques, la moyenne par exemple, pourrait ne pas être un indice très sensible de "la valeur typique".

C) Comment calculer les intervalles de confiance (ou peut-être une approche bayésienne) pour l'indice?

Je ne connais pas les statistiques bayésiennes, mais concernant le test classique de normalité, je voudrais citer Erceg-Hurn et al. (2008) [2]:

Un autre problème est que les tests d'hypothèse ont leurs propres hypothèses. Les tests de normalité supposent généralement que les données sont homoscédastiques; les tests d'homoscédasticité supposent que les données sont normalement distribuées. Si les hypothèses de normalité et d'homoscédasticité sont violées, la validité des tests d'hypothèse peut être sérieusement compromise. D'éminents statisticiens ont décrit les tests d'hypothèse (par exemple, le test de Levene, le test de Kolmogorov-Smirnov) intégrés dans des logiciels tels que SPSS comme étant fatalement défectueux et ont recommandé que ces tests ne soient jamais utilisés (D'Agostino, 1986; Glass & Hopkins, 1996).

D) Quel type d'étiquettes verbales pourriez-vous attribuer aux points de cet indice pour indiquer le degré de violation de la normalité (p. Ex., Léger, modéré, fort, extrême, etc.)?

Micceri (1989) [1] a analysé 440 ensembles de données à grande échelle en psychologie. Il a évalué la symétrie et le poids de la queue et a défini des critères et des étiquettes. Les étiquettes d'asymétrie vont de «relativement symétrique» à «modérée -> extrême -> asymétrie exponentielle». Les étiquettes pour le poids de la queue vont de «Uniforme -> inférieur à gaussien -> À propos de gaussien -> Modéré -> Extrême -> Double contamination exponentielle». Chaque classification est basée sur de multiples critères robustes.

Il a découvert que sur ces 440 ensembles de données, seulement 28% étaient relativement symétriques et seulement 15% étaient gaussiens concernant le poids de la queue. D'où le joli titre de l'article:

La licorne, la courbe normale et d'autres créatures improbables

J'ai écrit une Rfonction, qui évalue automatiquement les critères de Micceri et imprime également les étiquettes:

# This function prints out the Micceri-criteria for tail weight and symmetry of a distribution
micceri <- function(x, plot=FALSE) {
    library(fBasics)
    QS <- (quantile(x, prob=c(.975, .95, .90)) - median(x)) / (quantile(x, prob=c(.75)) - median(x))

    n <- length(x)
    x.s <- sort(x)
    U05 <- mean(x.s[(.95*n ):n])
    L05 <- mean(x.s[1:(.05*n)])
    U20 <- mean(x.s[(.80*n):n])
    L20 <- mean(x.s[1:(.20*n)])
    U50 <- mean(x.s[(.50*n):n])
    L50 <- mean(x.s[1:(.50*n)])
    M25 <- mean(x.s[(.375*n):(.625*n)])
    Q <- (U05 - L05)/(U50 - L50)
    Q1 <- (U20 - L20)/(U50 - L50)
    Q2 <- (U05 - M25)/(M25 - L05)

    # mean/median interval
    QR <- quantile(x, prob=c(.25, .75)) # Interquartile range
    MM <- abs(mean(x) - median(x)) / (1.4807*(abs(QR[2] - QR[1])/2))

    SKEW <- skewness(x)
    if (plot==TRUE) plot(density(x))

    tail_weight <- round(c(QS, Q=Q, Q1=Q1), 2)
    symmetry <- round(c(Skewness=SKEW, MM=MM, Q2=Q2), 2)

    cat.tail <- matrix(c(1.9, 2.75, 3.05, 3.9, 4.3,
                         1.8, 2.3, 2.5, 2.8, 3.3,
                        1.6, 1.85, 1.93, 2, 2.3,
                        1.9, 2.5, 2.65, 2.73, 3.3,
                        1.6, 1.7, 1.8, 1.85, 1.93), ncol=5, nrow=5)

    cat.sym <- matrix(c(0.31, 0.71, 2,
                        0.05, 0.18, 0.37,
                        1.25, 1.75, 4.70), ncol=3, nrow=3)


    ts <- c()
    for (i in 1:5) {ts <- c(ts, sum(abs(tail_weight[i]) > cat.tail[,i]) + 1)}

    ss <- c()
    for (i in 1:3) {ss <- c(ss, sum(abs(symmetry[i]) > cat.sym[,i]) + 1)}

    tlabels <- c("Uniform", "Less than Gaussian", "About Gaussian", "Moderate contamination", "Extreme contamination", "Double exponential contamination")

    slabels <- c("Relatively symmetric", "Moderate asymmetry", "Extreme asymmetry", "Exponential asymmetry")

    cat("Tail weight indexes:\n")
    print(tail_weight)
    cat(paste("\nMicceri category:", tlabels[max(ts)],"\n"))
    cat("\n\nAsymmetry indexes:\n")
    print(symmetry)
    cat(paste("\nMicceri category:", slabels[max(ss)]))

    tail.cat <- factor(max(ts), levels=1:length(tlabels), labels=tlabels, ordered=TRUE)
    sym.cat  <- factor(max(ss), levels=1:length(slabels), labels=slabels, ordered=TRUE)

    invisible(list(tail_weight=tail_weight, symmetry=symmetry, tail.cat=tail.cat, sym.cat=sym.cat))
}

Voici un test pour la distribution normale standard, un avec 8 df et un log-normal:t

> micceri(rnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 2.86  2.42  1.88  2.59  1.76 

Micceri category: About Gaussian 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    0.01     0.00     1.00 

Micceri category: Relatively symmetric



> micceri(rt(10000, 8))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 3.19  2.57  1.94  2.81  1.79 

Micceri category: Extreme contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
   -0.03     0.00     0.98 

Micceri category: Relatively symmetric



> micceri(rlnorm(10000))
Tail weight indexes:
97.5%   95%   90%     Q    Q1 
 6.24  4.30  2.67  3.72  1.93 

Micceri category: Double exponential contamination 


Asymmetry indexes:
Skewness   MM.75%       Q2 
    5.28     0.59     8.37 

Micceri category: Exponential asymmetry

[1] Micceri, T. (1989). La licorne, la courbe normale et d'autres créatures improbables. Bulletin psychologique, 105 , 156-166. doi: 10.1037 / 0033-2909.105.1.156

[2] Erceg-Hurn, DM et Mirosevich, VM (2008). Méthodes statistiques robustes modernes: un moyen facile de maximiser la précision et la puissance de votre recherche. Psychologue américain, 63 , 591-601.

Felix S
la source
3
+1, c'est vraiment une excellente réponse. Cependant, je veux chipoter avec 1 point. Vous dites que "les distributions unimodales et symétriques avec des queues lourdes rendent vos CI très larges et réduisent vraisemblablement le pouvoir de détecter les effets". À moins qu'ils ne soient bootstrapés, les CI ont tendance à être basés sur des asymptotiques (hypothèses normales), donc le fait que votre dist a des queues grasses n'a aucun effet sur la largeur du CI ou la puissance. Cela signifie plutôt que la probabilité de couverture empirique ne correspondra pas à la probabilité de couverture supposée.
gung - Rétablir Monica