Interprétation du test de Shapiro-Wilk

29

Je suis assez nouveau dans les statistiques et j'ai besoin de votre aide.
J'ai un petit échantillon, comme suit:

  H4U
  0.269
  0.357
  0.2
  0.221
  0.275
  0.277
  0.253
  0.127
  0.246

J'ai exécuté le test Shapiro-Wilk en utilisant R:

shapiro.test(precisionH4U$H4U)

et j'ai obtenu le résultat suivant:

 W = 0.9502, p-value = 0.6921

Maintenant, si je suppose que le niveau de signification à 0,05 est supérieur à la valeur p, alors alpha (0,6921> 0,05) et je ne peux pas rejeter l'hypothèse nulle sur la distribution normale, mais cela me permet-il de dire que l'échantillon a une distribution normale ?

Merci!

Jakub
la source

Réponses:

28

Non - vous ne pouvez pas dire "l'échantillon a une distribution normale" ou "l'échantillon provient d'une population qui a une distribution normale", mais seulement "vous ne pouvez pas rejeter l'hypothèse selon laquelle l'échantillon provient d'une population qui a une distribution normale".

En fait, l'échantillon n'a pas une distribution normale (voir le qqplot ci-dessous), mais vous ne vous y attendriez pas car il ne s'agit que d'un échantillon. La question de la répartition de la population sous-jacente reste ouverte.

qqnorm( c(0.269, 0.357, 0.2, 0.221, 0.275, 0.277, 0.253, 0.127, 0.246) )

qqplot

Henri
la source
2
le qqplot ressemble assez à la normale je pense ... vous pouvez essayer qqnorm(rnorm(9))plusieurs fois ...
Curieux
2
@Tomas: Peut-être vaut-il mieux dire "le qqplot semble avoir pu provenir d'une population normale". Il pourrait plutôt provenir d'une distribution avec des queues plus lourdes.
Henry
Oui, qqnorm(runif(9))peut produire un résultat similaire. Nous ne pouvons donc rien dire ...
Curieux
quelle est la différence entre "l'échantillon a une distribution normale" et "l'échantillon provient d'une population qui a une distribution normale"?
auraham
1
Une distribution normale est une distribution continue sur tous les réels. Un échantillon (fini ou même infiniment comptable) ne peut pas avoir ce type de distribution lui-même, même s'il est tiré d'une population ayant cette distribution.
Henry
17

Le fait de ne pas rejeter une hypothèse nulle indique que l'échantillon que vous avez est trop petit pour capter les écarts par rapport à la normalité que vous avez - mais votre échantillon est si petit que même des écarts assez importants par rapport à la normalité ne seront probablement pas détectés.

Cependant, un test d'hypothèse est à peu près hors de propos dans la plupart des cas où les gens utilisent un test de normalité pour - vous connaissez réellement la réponse à la question que vous testez - la distribution de la population à partir de vos données ne sera pas normale . (Cela peut être assez proche parfois, mais en fait normal?)

La question à laquelle vous devez vous soucier n'est pas «est la distribution qu'ils tirent de la normale» (ce ne sera pas le cas). La question à laquelle vous devriez réellement vous soucier est plus du genre «l'écart par rapport à la normalité aura-t-il un impact significatif sur mes résultats?». Si c'est potentiellement un problème, vous pourriez envisager une analyse qui est moins susceptible d'avoir ce problème.

Glen_b -Reinstate Monica
la source
10

t

tt -test approprié.

Je spécule en outre que vous regardez les proportions, auquel cas vous pouvez utiliser une distribution binomiale si vous étiez préoccupé par des violations d'hypothèses.

Si c'est une autre préoccupation qui vous a amené aux tests de Shapiro, vous pouvez ignorer tout ce que je viens de dire.

Thomas Levine
la source
Vous avez bien compris, je voulais savoir si je pouvais utiliser le test t pour mon échantillon. Merci!
Jakub
4

Comme Henry l'a déjà dit, vous ne pouvez pas dire que c'est normal. Essayez simplement d'exécuter la commande suivante dans R plusieurs fois:

shapiro.test(runif(9)) 

Cela permettra de tester l'échantillon de 9 nombres de distribution uniforme. Plusieurs fois, la valeur de p sera beaucoup plus grande que 0,05 - ce qui signifie que vous ne pouvez pas conclure que la distribution est normale.

Curieuse
la source
4

Je cherchais également comment interpréter correctement la valeur W dans le test Shapiro-Wilk et selon l'article d' Emil OW Kirkegaard "Les valeurs W du test Shapiro-Wilk visualisées avec différents ensembles de données ", il est très difficile de dire quoi que ce soit sur la normalité d'un distribution ne considérant que la valeur W.

Comme il le déclare en conclusion:

En général, nous voyons que, étant donné un échantillon important, SW est sensible aux écarts par rapport à la non-normalité. Si le départ est très petit, cependant, ce n'est pas très important.

On voit aussi qu'il est difficile de réduire la valeur W même si l'on essaie délibérément. Il faut tester une distribution extrêmement anormale pour qu'elle tombe sensiblement en dessous de .99.

Voir l'article d'origine pour plus d'informations.

Denis Rasulev
la source
1

Un problème important non mentionné dans la réponse précédente concerne les limites du test:

Le test a des limites, surtout qu'il présente un biais selon la taille de l'échantillon . Plus l'échantillon est grand, plus vous aurez de chances d'obtenir un résultat statistiquement significatif.

Pour répondre à la question d'origine (très petit échantillon): consultez les articles suivants sur de meilleures alternatives comme le tracé QQ et l'histogramme pour ce cas spécifique.

Stenemo
la source