L'intrigue QQ semble normale, mais le test de Shapiro-Wilk dit le contraire

12

Dans R, j'ai un échantillon de 348 mesures et je veux savoir si je peux supposer qu'il est normalement distribué pour de futurs tests.

Essentiellement après une autre réponse Stack , je regarde le tracé de densité et le tracé QQ avec:

plot(density(Clinical$cancer_age))

entrez la description de l'image ici

qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)

entrez la description de l'image ici

Je n'ai pas une solide expérience en statistique, mais ils ressemblent à des exemples de distributions normales que j'ai vues.

Ensuite, je lance le test Shapiro-Wilk:

shapiro.test(Clinical$cancer_age)

> Shapiro-Wilk normality test

data:  Clinical$cancer_age
W = 0.98775, p-value = 0.004952

Si je l'interprète correctement, cela me dit qu'il est prudent de rejeter l'hypothèse nulle, qui est que la distribution est normale.

Cependant, j'ai rencontré deux messages Stack ( ici et ici ), ce qui mine fortement l'utilité de ce test. On dirait que si l'échantillon est gros (348 est-il considéré comme gros?), Il dira toujours que la distribution n'est pas normale.

Comment dois-je interpréter tout cela? Dois-je m'en tenir au tracé QQ et supposer que ma distribution est normale?

francoiskroll
la source
4
L'intrigue qq semble montrer un écart par rapport à la normale dans les queues. De plus, tout test utile de qualité d'ajustement sera rejeté dans de très grands échantillons simplement parce qu'il y aura de petits écarts par rapport à la normalité qui seront détectés. Ce n'est pas une critique du test de Shapiro-Wilk mais plutôt une caractéristique de tester la qualité d'ajustement.
Michael R. Chernick
4
Pourquoi est-il important pour vous de supposer une distribution normale? Que comptez-vous faire sur la base de cette hypothèse?
Roland
6
Juste pour ajouter aux commentaires de Roland - de nombreux tests qui supposent formellement une distribution normale sont en fait assez robustes en cas de légers écarts par rapport à la normalité (par exemple parce que la distribution de la statistique de test est asymptotiquement correcte). Si vous pouvez expliquer ce que vous avez l'intention de faire, vous obtiendrez peut-être des réponses plus utiles.
P.Windridge
1
@mdewey, observation nette! Ce n'est pas l'âge à l'incidence, mais «l'âge» de la tumeur mesuré par méthylation de l'ADN.
francoiskroll
2
Je pense qu'il vaudrait la peine d'examiner le petit nombre d'observations extrêmes juste pour vérifier s'il s'agit d'erreurs de mesure.
mdewey

Réponses:

11

Vous n'avez pas de problème ici. Vos données peuvent être légèrement non normales, mais elles sont suffisamment normales pour qu'elles ne posent aucun problème. De nombreux chercheurs effectuent des tests statistiques en supposant la normalité avec des données beaucoup moins normales que celles que vous avez.

Je ferais confiance à tes yeux. La densité et les parcelles QQ semblent raisonnables, malgré un léger biais positif sur les queues. À mon avis, vous n'avez pas à vous soucier de la non-normalité de ces données.

Vous avez un N d'environ 350, et les valeurs de p dépendent fortement de la taille des échantillons. Avec un grand échantillon, presque tout peut être significatif. Cela a été discuté ici.

Il y a des réponses incroyables sur ce post très populaire qui arrive à la conclusion que mener un test de signification d'hypothèse nulle pour la non-normalité est "essentiellement inutile". La réponse acceptée sur ce post est une fabuleuse démonstration que, même lorsque les données ont été générées à partir d'un processus presque gaussien, une taille d'échantillon suffisamment élevée rend le test non normal significatif.


Désolé, j'ai réalisé que j'avais un lien vers un message que vous aviez mentionné dans votre question d'origine. Ma conclusion demeure cependant: vos données ne sont pas si anormales qu'elles devraient poser des problèmes.

Mark White
la source
Ce n'est pas parce que certains chercheurs sont très bâclés que vous pouvez être un peu bâclé :). Cependant, je suis d'accord avec le fait que de nombreux tests statistiques qui supposent formellement la normalité sont en fait assez tolérants de ce que vous nourrissez
P.Windridge
2
"Ce n'est pas parce que certains chercheurs sont très bâclés que vous pouvez être un peu bâclé :)" Juste point; c'était un mauvais argument de ma part. "Cependant, je suis d'accord avec le fait que de nombreux tests statistiques qui supposent formellement la normalité sont en fait assez tolérants de ce que vous les nourrissez." Oui en effet. Tout professeur quant que j'ai eu a regardé des complots QQ comme celui-ci et a dit: "Ouais, c'est OK."
Mark White
4

Votre distribution n'est pas normale. Regardez les queues (ou leur absence). Voici ce que vous attendez d'un tracé QQ normal.

entrez la description de l'image ici

Reportez-vous à ce post sur la façon d'interpréter les différents graphiques QQ.

Gardez à l'esprit que même si une distribution peut ne pas être techniquement normale, elle peut être suffisamment normale pour se qualifier pour des algorithmes qui nécessitent une normalité.

redresser
la source
1
De quoi parlez-vous, j'ai exécuté 9 parcelles qq normales sous forme d'échantillons directement sous forme d'une distribution normale en utilisant le code set.seed (100) par (mfrow = c (3,3)) pour (i en 1: 9) {x < - rnorm (350) qqnorm (x) qqline (x)} et plot (3,2) semblent très similaires à la situation d'OP.
Josh
1
En règle générale, vous ne voulez pas vous concentrer sur les queues, car elles seront souvent étranges, bien que des queues extrêmement mauvaises vous donnent de mauvais résultats. Vous voulez vraiment vous concentrer sur le milieu.
Josh
vous vous trompez Josh. veuillez faire appel à un test normal pour vérifier si l'hypothèse nulle de normalité est rejetée.
réparation le
1
Tu as raison. J'ai d'abord lu votre message car les intrigues qq n'étaient pas assez normales, et je m'en excuse.
Josh
2
@Josh, le milieu de la distribution importe peu pour les tests d'hypothèse; ce sont les queues qui comptent. Vous avez cela à l'envers.
gung - Rétablir Monica