Le test de normalité est-il «essentiellement inutile»?

298

Un ancien collègue m'a un jour expliqué ce qui suit:

Nous appliquons généralement des tests de normalité aux résultats de processus qui, sous le zéro, génèrent des variables aléatoires qui ne sont que asymptotiquement ou presque normales (la partie "asymptotiquement" dépendant d'une quantité que nous ne pouvons pas rendre grande); À l'ère de la mémoire peu coûteuse, des mégadonnées et des processeurs rapides, les tests de normalité doivent toujours rejeter la valeur NULL de la distribution normale pour les échantillons volumineux (mais pas incroyablement volumineux). Et donc, perversement, les tests de normalité ne devraient être utilisés que pour de petits échantillons, quand ils ont vraisemblablement une puissance inférieure et un contrôle moindre sur le taux de type I.

Est-ce un argument valable? Est-ce un argument bien connu? Existe-t-il des tests bien connus pour une hypothèse nulle «plus floue» que la normalité?

hypothesis-testing normality-assumption philosophical Jeromy Anglim
la source

23

Pour référence: je ne pense pas que cela doive être un wiki de communauté.

Shane

2

Je n'étais pas sûr qu'il y avait une «bonne réponse» ...

shabbychef

5

Dans un certain sens, cela est vrai de tous les tests d'un nombre fini de paramètres. Avec fixé (le nombre de paramètres sur lesquels le test est effectué) et croissant sans limite, toute différence entre les deux groupes (aussi petite soit-elle) rompra toujours le zéro à un moment donné. En réalité, c'est un argument en faveur des tests bayésiens.

k

$k$

n

$n$

user603

2

Pour moi, ce n'est pas un argument valable. Quoi qu'il en soit, avant de donner une réponse, vous devez formaliser un peu les choses. Vous avez peut-être tort et vous ne l'êtes peut-être pas, mais maintenant, ce que vous avez n'est plus qu'une intuition: pour moi, la phrase "À l'ère de la mémoire peu coûteuse, des données volumineuses et des processeurs rapides, les tests de normalité devraient toujours rejeter le caractère nul de la normale" besoin de clarifications :) Je pense que si vous essayez de donner une précision plus formelle, la réponse sera simple.

robin girard

8

Le fil de discussion de "Les grands ensembles de données sont-ils inappropriés pour les tests d'hypothèses" décrit une généralisation de cette question. ( stats.stackexchange.com/questions/2516/… )

whuber

229

Ce n'est pas un argument. C'est un fait (un peu fort) que les tests de normalité formels rejettent toujours sur la taille énorme des échantillons avec lesquels nous travaillons aujourd'hui. Il est même facile de prouver que lorsque n devient grand, même le plus petit écart par rapport à la normalité parfaite mènera à un résultat significatif. Et comme chaque jeu de données a un certain degré d'aléatoire, aucun jeu de données ne sera un échantillon parfaitement distribué normalement. Mais dans les statistiques appliquées, la question n'est pas de savoir si les données / résidus ... sont parfaitement normaux, mais suffisamment normaux pour que les hypothèses puissent être vérifiées.

Permettez-moi d'illustrer avec le test Shapiro-Wilk . Le code ci-dessous construit un ensemble de distributions qui s'approchent de la normalité mais ne sont pas complètement normales. Ensuite, nous vérifions shapiro.testsi un échantillon de ces distributions presque normales s'écarte de la normalité. En R:

x <- replicate(100, { # generates 100 different tests on each distribution
                     c(shapiro.test(rnorm(10)+c(1,0,2,0,1))$p.value,   #$
                       shapiro.test(rnorm(100)+c(1,0,2,0,1))$p.value,  #$
                       shapiro.test(rnorm(1000)+c(1,0,2,0,1))$p.value, #$
                       shapiro.test(rnorm(5000)+c(1,0,2,0,1))$p.value) #$
                    } # rnorm gives a random draw from the normal distribution
               )
rownames(x) <- c("n10","n100","n1000","n5000")

rowMeans(x<0.05) # the proportion of significant deviations
  n10  n100 n1000 n5000 
 0.04  0.04  0.20  0.87

La dernière ligne vérifie quelle fraction des simulations pour chaque taille d'échantillon s'écarte de manière significative de la normalité. Ainsi, dans 87% des cas, un échantillon de 5 000 observations s'écarte considérablement de la normalité selon Shapiro-Wilks. Pourtant, si vous voyez les courbes qq, vous ne déciderez jamais d'un écart par rapport à la normalité. Ci-dessous, vous voyez à titre d'exemple les courbes qq pour un ensemble d'échantillons aléatoires

texte alternatif

avec des valeurs p

  n10  n100 n1000 n5000 
0.760 0.681 0.164 0.007

Joris Meys
la source

40

Sur une note de côté, le théorème de la limite centrale rend le contrôle de normalité formelle inutile dans de nombreux cas lorsque n est grand.

Joris Meys

31

oui, la vraie question n'est pas de savoir si les données sont effectivement distribuées normalement mais bien si elles sont suffisamment normales pour que l'hypothèse de normalité sous-jacente soit raisonnable aux fins pratiques de l'analyse, et j'aurais pensé que l'argument fondé sur le CLT est normalement [sic] suffisant pour cela.

Dikran Marsupial

53

Cette réponse semble ne pas répondre à la question: elle démontre simplement que le test SW n'atteint pas son niveau de confiance nominal et identifie donc une faille dans ce test (ou au moins dans sa Rmise en œuvre). Mais c’est tout, cela n’a aucune incidence sur l’utilité des tests de normalité en général. L'assertion initiale que les tests de normalité rejettent toujours sur des échantillons de grande taille est tout simplement incorrecte.

whuber

19

@whuber Cette réponse répond à la question. Le point essentiel de la question est le "proche" dans "la quasi-normalité". SW teste les chances que l'échantillon soit extrait d'une distribution normale. Comme les distributions que j'ai construites ne sont délibérément pas normales, vous vous attendez à ce que le test SW fasse ce qu'il promet: rejeter la valeur nulle. Le fait est que ce rejet n'a pas de sens dans les grands échantillons, car la déviation par rapport à la normalité n'entraîne pas une perte de puissance là-bas. Donc, le test est correct, mais sans signification, comme le montrent les QQplots

Joris Meys

11

Je m'étais fondé sur ce que vous avez écrit et j'ai mal compris ce que vous entendiez par une distribution "presque normale". Je vois maintenant - mais seulement en lisant le code et en le testant avec soin - que vous simulez à partir de trois distributions normales standard avec des moyennes à et et que vous combinez les résultats dans un rapport . Ne seriez - vous espérer qu'un bon test de Normalité rejette l'hypothèse nulle dans ce cas? Ce que vous avez bien démontré, c’est que les graphiques QQ ne sont pas très efficaces pour détecter de tels mélanges, c’est tout!

0,

$0,$

1,

$1,$

2

$2$

2 : 2 : 1

$2:2:1$

whuber

172

Lorsqu'on se demande si le test de normalité est «essentiellement inutile», il faut d'abord se demander à quoi il est censé être utile. Beaucoup de gens (du moins, beaucoup de scientifiques) comprennent mal la question à laquelle répond le test de normalité.

La question à laquelle les tests de normalité répondent: existe-t-il des preuves convaincantes d'un quelconque écart par rapport à l'idéal gaussien? Avec des ensembles de données réelles moyennement volumineux, la réponse est presque toujours oui.

La question à laquelle les scientifiques s'attendent souvent à ce que le test de normalité réponde: les données s'écartent-elles suffisamment de l'idéal gaussien pour "interdire" l'utilisation d'un test supposant une distribution gaussienne? Les scientifiques veulent souvent que le test de normalité soit l’arbitre qui décide à quel moment abandonner les tests classiques (ANOVA, etc.) et analyse plutôt les données transformées ou utilise un test non paramétrique basé sur le rang ou une approche de ré-échantillonnage ou de bootstrap. À cette fin, les tests de normalité ne sont pas très utiles.

Harvey Motulsky
la source

16

+1 pour une réponse bonne et informative. Je trouve utile de trouver une bonne explication à un malentendu courant (que j'ai moi-même vécu par hasard : stats.stackexchange.com/questions/7022/… ). Ce qui me manque cependant, c'est une solution alternative à ce malentendu courant. Je veux dire, si les tests de normalité ne sont pas la bonne façon de procéder, comment vérifier si une approximation normale est acceptable / justifiée?

Posdef

6

Il n'y a pas de substitut au sens (commun) de l'analyste (ou du chercheur / scientifique). Et l'expérience (appris en essayant et en voyant: quelles conclusions puis-je obtenir si je suppose que c'est normal? Quelle est la différence sinon?). Les graphiques sont vos meilleurs amis.

FairMiles

2

J'aime cet article qui met en avant le point que vous avez évoqué: Micceri, T. (1989). La licorne, la courbe normale et d'autres créatures improbables. Psychological Bulletin, 105 (1), 156-166.

Jeremy Miles

4

Regarder des graphiques, c'est bien, mais s'il y en a trop à examiner manuellement? Pouvons-nous élaborer des procédures statistiques raisonnables pour signaler les points problématiques possibles? Je pense à des situations telles que les expérimentateurs A / B à grande échelle: exp-platform.com/Pages/… .

Défrankow

118

Je pense que les tests de normalité peuvent être utiles pour accompagner les examens graphiques. Ils doivent cependant être utilisés de la bonne manière. À mon avis, cela signifie que de nombreux tests populaires, tels que les tests Shapiro-Wilk, Anderson-Darling et Jarque-Bera, ne doivent jamais être utilisés.

Avant d’expliquer mon point de vue, laissez-moi faire quelques remarques:

Dans un article récent intéressant, Rochon et al. ont étudié l'impact du test Shapiro-Wilk sur le test t à deux échantillons. La procédure de test de normalité en deux étapes avant d'effectuer un test t, par exemple, n'est pas sans problèmes. Là encore, la procédure en deux étapes consistant à rechercher graphiquement la normalité avant de réaliser un test t n'est pas non plus . La différence est que l'impact de ce dernier est beaucoup plus difficile à étudier (car il faudrait un statisticien pour rechercher graphiquement la normalité fois environ ...). $100,000$
Il est utile de quantifier la non-normalité , par exemple en calculant l'asymétrie de l'échantillon, même si vous ne souhaitez pas effectuer de test formel.
La normalité multivariée peut être difficile à évaluer graphiquement et la convergence vers des distributions asymptotiques peut être lente pour les statistiques multivariées. Les tests de normalité sont donc plus utiles dans un environnement multivarié.
Les tests de normalité sont peut-être particulièrement utiles pour les praticiens qui utilisent les statistiques comme un ensemble de méthodes de boîte noire . Lorsque la normalité est rejetée, le praticien doit être alarmé et, plutôt que de suivre une procédure standard basée sur l'hypothèse de normalité, utilisez une procédure non paramétrique, appliquez une transformation ou consultez un statisticien plus expérimenté.
Comme d'autres l'ont fait remarquer, si est suffisamment grand, le CLT enregistre généralement un gain de temps. Cependant, ce qui est "assez grand" diffère pour différentes classes de distributions. $n$

(Dans ma définition) un test de normalité est dirigé contre une classe d'alternatives s'il est sensible aux alternatives de cette classe, mais pas aux alternatives d'autres classes. Des exemples typiques sont les tests dirigés vers des alternatives asymétriques ou kurtotiques . Les exemples les plus simples utilisent l'échantillon, l'asymétrie et le kurtosis comme statistiques de test.

On peut soutenir que les tests de normalité dirigés sont souvent préférables aux tests omnibus (tels que les tests de Shapiro-Wilk et de Jarque-Bera) car il est fréquent que seuls certains types de non-normalité concernent une procédure inférentielle particulière .

Prenons le test t de Student comme exemple. Supposons que nous ayons un échantillon iid d'une distribution avec l'asymétrie et (en excès) kurtosisSi est symétrique par rapport à sa moyenne, . et sont tous deux 0 pour la distribution normale. $\gamma=\frac{E(X-\mu)^3}{\sigma^3}$ $\kappa=\frac{E(X-\mu)^4}{\sigma^4}-3.$ $X$ $\gamma=0$ $\gamma$ $\kappa$

Sous les hypothèses de régularité, nous obtenons le développement asymptotique suivant pour la cdf de la statistique de test : $T_n$

P (T_{n} \leq x) = Φ (x) + n^{- 1 / 2} \frac{1}{6} γ (2 x^{2} + 1) ϕ (x) - n^{- 1} x (\frac{1}{12} κ (x^{2} - 3) - \frac{1}{18} γ^{2} (x^{4} + 2 x^{2} - 3) - \frac{1}{4} (x^{2} + 3)) ϕ (x) + o (n^{- 1}),

$P(T_n\leq x)=\Phi(x)+n^{-1/2}\frac{1}{6}\gamma(2x^2+1)\phi(x)-n^{-1}x\Big(\frac{1}{12}\kappa (x^2-3)-\frac{1}{18}\gamma^2(x^4+2x^2-3)-\frac{1}{4}(x^2+3)\Big)\phi(x)+o(n^{-1}),$

où est le cdf et est le pdf de la distribution normale standard. $\Phi(\cdot)$ $\phi(\cdot)$

$\gamma$ apparaît pour la première fois dans le terme, alors que apparaît dans le terme. La performance asymptotique de est beaucoup plus sensible aux déviations par rapport à la normalité sous forme d'asymétrie que sous forme de kurtosis. $n^{-1/2}$ $\kappa$ $n^{-1}$ $T_n$

On peut vérifier par des simulations que cela est également vrai pour les petits . Ainsi, le test t de Student est sensible à l'asymétrie mais relativement robuste contre les queues épaisses, et il est raisonnable d'utiliser un test de normalité orienté vers les alternatives asymétriques avant d'appliquer le test t . $n$

En règle générale ( pas une loi de la nature), l'inférence sur les moyens est sensible à l'asymétrie et l'inférence sur les variances est sensible à la kurtose.

L'utilisation d'un test dirigé de normalité a l'avantage d'obtenir un pouvoir plus élevé contre des alternatives «dangereuses» et un pouvoir inférieur contre des alternatives moins «dangereuses», ce qui signifie que nous sommes moins susceptibles de rejeter la normalité en raison des écarts par rapport à la normalité pas affecter les performances de notre procédure inférentielle. La non-normalité est quantifiée de manière pertinente pour le problème à résoudre. Ce n’est pas toujours facile à faire graphiquement.

Au fur et à mesure que augmente, l'asymétrie et le kurtosis deviennent moins importants - et les tests dirigés sont susceptibles de détecter si ces quantités s'écartent de 0, même d'une petite quantité. Dans de tels cas, il semble raisonnable, par exemple, de tester si ou (en regardant le premier terme de l'expansion ci-dessus) plutôt que de savoir si . Cela résout certains des problèmes auxquels nous sommes confrontés lorsque s’agrandit. $n$ $|\gamma|\leq 1$

| n^{- 1 / 2} \frac{1}{6} γ (2 z_{α / 2}^{2} + 1) ϕ (z_{α / 2}) | \leq 0.01

$|n^{-1/2}\frac{1}{6}\gamma(2z_{\alpha/2}^2+1)\phi(z_{\alpha/2})|\leq 0.01$

γ = 0

$\gamma=0$

n

$n$

minimum
la source

2

Maintenant, c'est une excellente réponse!

user603

10

Oui, cela devrait être la réponse acceptée, vraiment fantastique

jenesaisquoi

2

"il est fréquent que seuls certains types de non-normalité soient concernés par une procédure inférentielle particulière." - bien sûr, il faudrait alors utiliser un test dirigé vers ce type de non-normalité. Mais le fait d'utiliser un test de normalité implique qu'il se soucie de tous les aspects de la normalité. La question qui se pose est la suivante: un test de normalité est-il dans ce cas une bonne option?

Ram

Test de la suffisance des hypothèses pour des tests particuliers sont en train de devenir commun, ce qui élimine heureusement une partie de la conjecture.

Carl

1

@Carl: Pouvez-vous ajouter quelques références / exemples pour cela?

kjetil b halvorsen le

58

Les tests de normalité à mon humble avis sont absolument inutiles pour les raisons suivantes:

Sur de petits échantillons, il est fort probable que la répartition réelle de la population soit sensiblement non normale, mais le test de normalité n'est pas très efficace pour le détecter.
Sur des échantillons volumineux, des éléments tels que le test T et l'ANOVA sont assez robustes pour la non-normalité.
L’idée d’une population normalement distribuée n’est de toute façon qu’une approximation mathématique commode. Aucune des quantités généralement traitées statistiquement ne pourrait avoir des distributions avec un support de tous les nombres réels. Par exemple, les gens ne peuvent pas avoir une taille négative. Quelque chose ne peut avoir une masse négative ou une masse supérieure à celle de l'univers. Par conséquent, il est prudent de dire que rien n’est exactement distribué normalement dans le monde réel.

Dsimcha
la source

2

La différence de potentiel électrique est un exemple de quantité réelle pouvant être négative.

nico

16

@ nico: Bien sûr, cela peut être négatif, mais il y a une limite finie à cela car il n'y a qu'un très grand nombre de protons et d'électrons dans l'univers. Bien sûr, cela n’est pas pertinent dans la pratique, mais c’est ce que je veux dire. Rien n’est exactement distribué normalement (le modèle est faux), mais beaucoup de choses sont suffisamment proches (le modèle est utile). Fondamentalement, vous saviez déjà que le modèle était faux et le fait de rejeter ou de ne pas rejeter la valeur null ne permet essentiellement pas de savoir s'il est néanmoins utile.

dsimcha

1

@dsimcha - Je trouve que c'est une réponse vraiment perspicace et utile.

rolando2

5

@dsimcha, le test et ANOVA ne résistent pas à la non-normalité. Voir les articles de Rand Wilcox.

t

$t$

Frank Harrell

@dsimcha "le modèle est faux". Tous les modèles ne sont-ils pas "faux" cependant?

Atirag

30

Je pense que le pré-test de normalité (qui inclut des évaluations informelles à l'aide de graphiques) passe à côté de l'essentiel.

Les utilisateurs de cette approche supposent que l’évaluation de la normalité a un pouvoir proche de 1.0.
Les tests non paramétriques tels que Wilcoxon, Spearman et Kruskal-Wallis ont une efficacité de 0,95 si la normalité est maintenue.
En vue de 2. on peut pré-spécifier l'utilisation d'un test non paramétrique si on pense même que les données pourraient ne pas provenir d'une distribution normale.
Les modèles de probabilité cumulative ordinaux (le modèle de probabilité proportionnelle étant un membre de cette classe) généralisent les tests non paramétriques standard. Modèles ordinaux sont complètement invariante transformation par rapport à , sont robustes, puissants et permettent d' estimer des quantiles et la moyenne de . $Y$ $Y$

Frank Harrell
la source

noter que l'efficacité de 0,95 est asymptotique : FWIW Je suppose que l'efficacité est beaucoup plus faible pour la taille des échantillons finis typiques ... (bien vrai que je ne l' ai pas vu cette étude, ni essayé d'explorer moi - même)

Ben Bolker

16

Avant de demander si un test ou une sorte de vérification approximative de la normalité est "utile", vous devez répondre à la question qui se cache derrière la question: "Pourquoi demandez-vous?"

Par exemple, si vous souhaitez uniquement définir une limite de confiance autour de la moyenne d'un ensemble de données, les écarts par rapport à la normalité peuvent être importants ou non, en fonction de la quantité de données dont vous disposez et de leur ampleur. Cependant, les écarts par rapport à la normalité peuvent être cruciaux si vous souhaitez prédire quelle sera la valeur la plus extrême dans les observations futures ou dans la population que vous avez échantillonnée.

Emil Friedman
la source

12

Permettez-moi d'ajouter une petite chose:
effectuer un test de normalité sans prendre en compte son erreur alpha augmente la probabilité globale que vous effectuiez une erreur alpha.

Vous n'oublierez jamais que chaque test supplémentaire le fait tant que vous ne contrôlez pas l'accumulation des erreurs alpha. Par conséquent, une autre bonne raison de rejeter les tests de normalité.

Henrik
la source

Je suppose que vous faites référence à une situation dans laquelle on fait d’abord un test de normalité, puis on utilise le résultat de ce test pour décider quel test effectuer ensuite.

Harvey Motulsky le

3

Je fais référence à l’utilité générale des tests de normalité lorsqu’ils sont utilisés comme méthode pour déterminer s’il est approprié ou non d’utiliser une certaine méthode. Si vous les appliquez dans ces cas, il est préférable, en termes de probabilité de commettre une erreur alpha, de réaliser un test plus robuste pour éviter l'accumulation d'erreur alpha.

Henrik

4

Cela n'a pas de sens pour moi. Même si vous décidez entre, par exemple, une ANOVA ou une méthode basée sur le classement basée sur un test de normalité (une mauvaise idée bien sûr), au final, vous ne ferez encore qu'un test de comparaison des intérêts. Si vous refusez la normalité à tort, vous n’êtes toujours pas parvenu à une conclusion erronée concernant cette comparaison particulière. Vous effectuez peut-être deux tests, mais le seul cas dans lequel vous pouvez conclure que des facteurs tels ou tels ont un effet est lorsque le deuxième test rejette également , et non pas seulement le premier. Donc, pas d'accumulation d'erreur alpha…

H_{0}

$H_0$

Gala du

3

Une autre façon dont un test de normalité pourrait augmenter les erreurs de type I est si nous parlons de "probabilité globale de réaliser une erreur alpha". Le test lui-même a un taux d'erreur, donc globalement , notre probabilité de commettre une erreur augmente. L'accent mis sur une petite chose aussi, je suppose ...

Nick Stauner

2

@ NickStauner C'est exactement ce que je voulais transmettre. Merci d'avoir rendu ce point encore plus clair.

Henrik

11

Les réponses ici ont déjà abordé plusieurs points importants. Pour résumer rapidement:

Aucun test cohérent ne peut déterminer si un ensemble de données suit réellement une distribution ou non.
Les tests ne remplacent pas l'inspection visuelle des données et des modèles pour identifier les observations à fort effet de levier et d'influence et pour commenter leurs effets sur les modèles.
Les hypothèses de nombreuses routines de régression sont souvent citées à tort comme nécessitant des "données" normalement distribuées, ce qui est interprété par les statisticiens débutants comme exigeant que l'analyste l'évalue formellement d'une certaine manière avant de procéder aux analyses.

J'ajoute tout d'abord une réponse pour citer l'un de mes articles statistiques personnellement consultés le plus souvent: " L'importance des hypothèses de normalité dans les grands ensembles de données de santé publique " par Lumley et. Al. Cela vaut la peine de le lire en entier. Le résumé dit:

Le test t et la régression linéaire par la méthode des moindres carrés ne nécessitent aucune hypothèse de distribution normale dans des échantillons suffisamment grands. Des études de simulations précédentes montrent que «suffisamment grand» est souvent inférieur à 100, et même pour nos données de coûts médicaux extrêmement non normales, il est inférieur à 500. Cela signifie qu'en recherche en santé publique, où les échantillons sont souvent beaucoup plus grands, -test et le modèle linéaire sont des outils par défaut utiles pour analyser les différences et les tendances dans de nombreux types de données, pas seulement celles avec des distributions normales. Les tests statistiques formels de normalité sont particulièrement indésirables car ils auront une faible puissance dans les petits échantillons où la distribution importe et une puissance élevée uniquement dans les grands échantillons où la distribution est sans importance.

Bien que les propriétés de la régression linéaire pour les grands échantillons soient bien comprises, peu de recherches ont été menées sur la taille des échantillons nécessaires pour que l'hypothèse de normalité soit sans importance. En particulier, il n’est pas clair en quoi la taille de l’échantillon nécessaire dépend du nombre de prédicteurs dans le modèle.

L'accent mis sur les distributions normales peut détourner l'attention des hypothèses réelles de ces méthodes. La régression linéaire suppose que la variance de la variable de résultat est approximativement constante, mais la principale restriction imposée aux deux méthodes est qu’elles supposent qu’il suffit d’examiner les changements de la moyenne de la variable de résultat. Si un autre résumé de la distribution présente un plus grand intérêt, le test t et la régression linéaire risquent de ne pas être appropriés.

Pour résumer: la normalité ne vaut généralement pas la discussion ni l'attention qu'elle reçoit contrairement à l'importance de répondre à une question scientifique particulière. Si l'on souhaite résumer les différences moyennes dans les données, alors le test t et l'ANOVA ou régression linéaire sont justifiés dans un sens beaucoup plus large. Les tests basés sur ces modèles restent du niveau alpha correct, même lorsque les hypothèses de répartition ne sont pas respectées, bien que la puissance puisse être affectée négativement.

Les raisons pour lesquelles les distributions normales peuvent recevoir l'attention qu'elles méritent peuvent être pour des raisons classiques, où des tests exacts basés sur les distributions F pour les ANOVA et les distributions de Student-T pour le test T pourraient être obtenus. En réalité, parmi les nombreuses avancées scientifiques modernes, nous traitons généralement avec des ensembles de données plus volumineux que ceux rassemblés précédemment. S'il s'agit en fait d'un petit jeu de données, l'argument selon lequel ces données sont normalement distribuées ne peut pas provenir de ces données elles-mêmes: il n'y a tout simplement pas assez de puissance. Le fait de faire référence à d’autres recherches, à des réplications ou même à la biologie ou à la science du processus de mesure est, à mon avis, une approche beaucoup plus justifiée pour discuter d’un modèle de probabilité sous-tendant les données observées.

Pour cette raison, opter pour un test basé sur le rang comme solution de rechange passe à côté de l'essentiel. Toutefois, je conviens que l’utilisation d’estimateurs de variance robustes, tels que le jackknife ou le bootstrap, offre d’importantes alternatives de calcul permettant de réaliser des tests dans le cadre de diverses violations plus importantes de la spécification du modèle, telles que l’indépendance ou une distribution identique de ces erreurs.

AdamO
la source

10

J'avais l' habitude de penser que les tests de normalité étaient complètement inutiles.

Cependant, je consulte maintenant d'autres chercheurs. Obtenir des échantillons est souvent extrêmement coûteux, et ils voudront donc faire une inférence avec n = 8, par exemple.

Dans un tel cas, il est très difficile de trouver une signification statistique avec des tests non paramétriques, mais les tests t avec n = 8 sont sensibles aux déviations par rapport à la normalité. Donc, ce que nous obtenons, c'est que nous pouvons dire "bon, conditionnellement à l'hypothèse de normalité, nous trouvons une différence statistiquement significative" (ne vous inquiétez pas, ce sont en général des études pilotes ...).

Ensuite, nous avons besoin d’un moyen d’évaluer cette hypothèse. À mi-chemin dans le camp, regarder les parcelles est une meilleure solution, mais à vrai dire, il peut y avoir beaucoup de désaccord à ce sujet, ce qui peut être très problématique si l'une des personnes qui est en désaccord avec vous est la relecteur de votre manuscrit.

À bien des égards, je pense toujours que les tests de normalité comportent de nombreuses failles: par exemple, nous devrions penser à l’erreur de type II plus qu’à l’erreur de type I. Mais elles sont nécessaires.

Cliff AB
la source

Notez que les arguments ici sont que les tests sont seulement inutiles en théorie. En théorie, nous pouvons toujours obtenir autant d'échantillons que nous le souhaitons ... Vous aurez toujours besoin de tests pour prouver que vos données sont au moins en quelque sorte proches de la normalité.

SmallChess

2

Bon point. Je pense que ce que vous insinuez, et certainement ce que je crois, c'est qu'une mesure de l'écart par rapport à la normalité est plus importante qu'un test d'hypothèse.

Cliff AB

Tant qu'ils ne basculent pas ensuite vers un test non paramétrique et n'essayent pas d'interpréter les p-values (qui sont invalidées par des tests préalables conditionnels), c'est peut-être normal ?!

Björn

2

La puissance d'un test de normalité sera très faible à n = 8; en particulier, les écarts par rapport à la normalité qui affecteront de manière substantielle les propriétés d'un test supposant qu'il peut être assez difficile à détecter pour des échantillons de petite taille (par test ou visuellement).

Glen_b

1

@Glen_b: je suis d'accord; Je pense que ce sentiment va dans le sens où il faut se préoccuper davantage des erreurs de type II que de type I. Ce que je veux dire, c'est que le monde doit absolument tester la normalité. Que nos outils actuels répondent réellement à ce besoin est une question différente.

Cliff AB le

10

Pour ce que cela vaut, j’avais déjà développé un échantillonneur rapide pour la distribution normale tronquée, et le test de normalité (KS) était très utile pour le débogage de la fonction. Cet échantillonneur réussit le test avec des tailles d'échantillon énormes, mais il est intéressant de noter que l'échantillonneur de ziggourat du GSL ne l'a pas fait.

Arthur B.
la source

8

L'argument que vous avez donné est un avis. Je pense que l’importance des tests de normalité est de s’assurer que les données ne s’écartent pas trop de la normale. Je l'utilise parfois pour décider d'utiliser un test paramétrique par rapport à un test non paramétrique pour ma procédure d'inférence. Je pense que le test peut être utile dans des échantillons modérés ou de grande taille (lorsque le théorème de la limite centrale n’entre pas en jeu). J'ai tendance à utiliser des tests Wilk-Shapiro ou Anderson-Darling, mais sous SAS, je les ai tous et ils sont généralement assez d'accord. Sur une note différente, je pense que les procédures graphiques telles que les tracés QQ fonctionnent également bien. L'avantage d'un test formel est qu'il est objectif. Dans les petits échantillons, il est vrai que ces tests de qualité de l'ajustement n'ont pratiquement pas de puissance et cela a un sens intuitif, car un petit échantillon d'une distribution normale pourrait paraître par hasard plutôt non normal et cela est pris en compte dans le test. De plus, les asymétries élevées et les kurtoses qui distinguent de nombreuses distributions non normales des distributions normales ne sont pas facilement visibles dans les petits échantillons.

Michael Chernick
la source

2

Bien qu'il puisse certainement être utilisé de cette façon, je ne pense pas que vous serez plus objectif qu'avec un QQ-Plot. La partie subjective des tests consiste à déterminer quand vos données ne sont pas normales. Avec un large échantillon, rejeter à p = 0,05 pourrait très bien être excessif.

Erik

4

Les tests préalables (comme suggéré ici) peuvent invalider le taux d'erreur de type I du processus global; il faut tenir compte du fait qu'un test préliminaire a été effectué lors de l'interprétation des résultats du test sélectionné. Plus généralement, les tests d'hypothèses devraient être conservés pour tester les hypothèses nulles qui importent vraiment, c'est-à-dire qu'il n'y a pas d'association entre les variables. L'hypothèse nulle selon laquelle les données sont exactement normales ne relève pas de cette catégorie.

Invité

1

(+1) Il y a d'excellents conseils ici. Erik, l'utilisation d '"objectif" m'a également surpris, jusqu'à ce que je réalise que Michael a raison: deux personnes effectuant correctement le même test sur les mêmes données obtiendront toujours la même valeur p, mais elles pourraient interpréter le même graphe QQ différemment. Invité: merci pour la mise en garde concernant l'erreur de type I. Mais pourquoi ne devrions-nous pas nous préoccuper de la distribution des données? C'est souvent une information intéressante et précieuse. Je veux au moins savoir si les données sont cohérentes avec les hypothèses que mes tests en font!

whuber

1

Je suis fortement en désaccord. Les deux personnes obtiennent le même graphique QQ et la même valeur p. Pour interpréter la valeur p, vous devez prendre en compte la taille de l'échantillon et les violations de la normalité auxquelles votre test est particulièrement sensible. Donc, décider quoi faire avec votre p-valeur est tout aussi subjectif. La raison pour laquelle vous pourriez préférer la valeur p est que, selon vous, les données pourraient suivre une distribution normale parfaite. Sinon, la question est simplement de savoir à quelle vitesse la valeur p chute avec la taille de l'échantillon. Qui plus est, étant donné la taille décente de l’échantillon, le graphique QQ est pratiquement identique et reste stable avec davantage d’échantillons.

Erik

1

Erik, je conviens que les résultats des tests et les graphiques nécessitent une interprétation. Mais le résultat du test est un nombre et il n’y aura aucune controverse à ce sujet. Le graphique QQ, cependant, admet plusieurs descriptions. Bien que chacun puisse être objectivement correct, le choix de ce sur quoi il faut porter attention est… un choix. C'est ce que signifie "subjectif": le résultat dépend de l'analyste, pas seulement de la procédure elle-même. Voilà pourquoi, par exemple, dans des contextes aussi variés que les cartes de contrôle et la réglementation gouvernementale où l ' « objectivité » est important, les critères sont basés sur numériques des tests et jamais les résultats graphiques.

whuber

7

Je pense qu'une approche d'entropie maximale pourrait être utile ici. Nous pouvons assigner une distribution normale parce que nous pensons que les données sont "normalement distribuées" (peu importe ce que cela signifie) ou parce que nous nous attendons à ne voir que des écarts d'environ la même Magnitude. De plus, comme la distribution normale ne contient que deux statistiques suffisantes, elle est insensible aux modifications des données qui ne modifient pas ces quantités. Donc, dans un sens, vous pouvez considérer une distribution normale comme une "moyenne" de toutes les distributions possibles avec les mêmes premier et deuxième moments. c'est l'une des raisons pour lesquelles les moindres carrés devraient fonctionner aussi bien.

probabilislogic
la source

Bon pontage des concepts. Je conviens également que dans les cas où une telle distribution est importante, il est bien plus éclairant de réfléchir à la manière dont les données sont générées. Nous appliquons ce principe en adaptant des modèles mixtes. Les concentrations ou les ratios, par contre, sont toujours asymétriques. J'ajouterais que par "la normale ... est insensible aux changements", vous entendez invariant aux changements de forme / d'échelle.

AdamO

7

Je ne dirais pas que c'est inutile, mais cela dépend vraiment de l'application. Notez que vous ne connaissez jamais vraiment la distribution à partir de laquelle les données proviennent, et que vous n’avez qu’un petit nombre de réalisations. La moyenne de votre échantillon est toujours finie dans l'échantillon, mais la moyenne peut être indéfinie ou infinie pour certains types de fonctions de densité de probabilité. Considérons les trois types de distributions Levy stables, à savoir la distribution normale, la distribution de Levy et la distribution de Cauchy. La plupart de vos échantillons ne comportent pas beaucoup d'observations à la queue (c.-à-d. En dehors de la moyenne de l'échantillon). Donc, empiriquement, il est très difficile de faire la distinction entre les trois, si bien que Cauchy (à moyenne non définie) et le Levy (à moyenne infinie) pourraient facilement se faire passer pour une distribution normale.

kolonel
la source

1

"... empiriquement, c'est très difficile ..." semble argumenter contre les tests de répartition , plutôt que pour ceux -ci. Cela est étrange à lire dans un paragraphe dont l'introduction suggère qu'il existe effectivement des utilisations pour le test de distribution. Qu'essayez-vous vraiment de dire ici?

whuber

3

Je suis contre, mais je veux aussi faire attention que de dire que c'est inutile, car je ne connais pas tous les scénarios possibles. De nombreux tests dépendent de l'hypothèse de normalité. Dire que les tests de normalité sont inutiles revient essentiellement à supprimer tous les tests statistiques, car vous dites que vous n'êtes pas sûr d'utiliser ou de faire la bonne chose. Dans ce cas, vous ne devriez pas le faire, vous ne devriez pas faire cette grande section de statistiques.

Kolonel

Je vous remercie. Les remarques dans ce commentaire semblent être mieux axées sur la question que votre réponse initiale! Vous pourriez envisager de mettre à jour votre réponse à un moment donné pour rendre plus claires vos opinions et vos conseils.

whuber

@whuber Pas de problème. Pouvez-vous recommander une modification?

Kolonel

Vous pouvez commencer par combiner les deux publications (la réponse et votre commentaire), puis envisager de supprimer (ou de reléguer en annexe ou de clarifier) tout élément pouvant être tangentiel. Par exemple, la référence à des moyens non définis n'a pas encore de rapport clair avec la question et reste donc quelque peu mystérieuse.

whuber

7

Je pense que les 2 premières questions ont reçu une réponse complète, mais je ne pense pas que la question 3 ait été abordée. De nombreux tests comparent la distribution empirique à une distribution hypothétique connue. La valeur critique du test de Kolmogorov-Smirnov est basée sur la spécification complète de F. Il peut être modifié pour tester une distribution paramétrique avec des paramètres estimés. Donc, si fuzzier signifie estimer plus de deux paramètres, alors la réponse à la question est oui. Ces tests peuvent être appliqués aux familles de 3 paramètres ou plus. Certains tests sont conçus pour avoir un meilleur pouvoir lors des tests sur une famille spécifique de distributions. Par exemple, lors des tests de normalité, les tests d'Anderson-Darling ou de Shapiro-Wilk ont une puissance supérieure à celle de KS ou de chi carré lorsque la distribution supposée nulle est normale.

Michael Chernick
la source

5

Les tests où "quelque chose" important pour l'analyse est soutenu par des valeurs p élevées sont, à mon avis, erronés. Comme d'autres l'ont souligné, pour les grands ensembles de données, une valeur p inférieure à 0,05 est assurée. Ainsi, le test consiste essentiellement à "récompenser" les ensembles de données petits et flous et à "récompenser" le manque de preuves. Quelque chose comme qq parcelles sont beaucoup plus utiles. Le désir des nombres durs de décider de ce genre de chose (oui / non, normal / pas normal) ne tient toutefois pas compte du fait que la modélisation est en partie un art et que les hypothèses sont réellement appuyées.

wvguy8258
la source

2

Il n'en reste pas moins qu'un grand échantillon presque normal aura une valeur p faible, tandis qu'un échantillon plus petit qui n'est pas aussi normal n'en aura souvent pas. Je ne pense pas que les grandes valeurs de p soient utiles. Encore une fois, ils récompensent le manque de preuves. Je peux avoir un échantillon avec plusieurs millions de points de données, et il va presque toujours rejeter l'hypothèse de normalité dans ces tests, contrairement à un échantillon plus petit. Par conséquent, je les trouve pas utiles. Si ma façon de penser est erronée, montrez-la en utilisant un raisonnement déductif sur ce point.

wvguy8258

Cela ne répond pas du tout à la question.

SmallChess

-2

Une bonne utilisation du test de normalité qui, à mon avis, n’a pas été mentionnée consiste à déterminer si l’utilisation de scores z est acceptable. Supposons que vous ayez sélectionné un échantillon aléatoire d'une population et que vous souhaitiez connaître la probabilité de sélectionner un individu aléatoire de la population et obtenir une valeur de 80 ou plus. Cela ne peut être fait que si la distribution est normale, car pour utiliser les scores z, l'hypothèse est que la distribution de la population est normale.

Mais alors je suppose que je peux voir cela être discutable aussi ...

Hotaka
la source

Valeur de quoi? Moyenne, somme, variance, une observation individuelle? Seul le dernier repose sur la normalité supposée de la distribution.

whuber

Je voulais dire individuel

Hotaka

2

Merci. Votre réponse reste cependant si vague qu'il est difficile de dire de quelle procédure vous parlez et impossible d'évaluer la validité de vos conclusions.

whuber

2

Le problème de cette utilisation est identique à celui d’autres utilisations: le test dépendra de la taille de l’échantillon, il est donc essentiellement inutile. Cela ne vous dit pas si vous pouvez utiliser les scores z.

Peter Flom

Le test de normalité est-il «essentiellement inutile»?

Réponses: