Dans R, j'ai un échantillon de 348 mesures et je veux savoir si je peux supposer qu'il est normalement distribué pour de futurs tests.
Essentiellement après une autre réponse Stack , je regarde le tracé de densité et le tracé QQ avec:
plot(density(Clinical$cancer_age))
qqnorm(Clinical$cancer_age);qqline(Clinical$cancer_age, col = 2)
Je n'ai pas une solide expérience en statistique, mais ils ressemblent à des exemples de distributions normales que j'ai vues.
Ensuite, je lance le test Shapiro-Wilk:
shapiro.test(Clinical$cancer_age)
> Shapiro-Wilk normality test
data: Clinical$cancer_age
W = 0.98775, p-value = 0.004952
Si je l'interprète correctement, cela me dit qu'il est prudent de rejeter l'hypothèse nulle, qui est que la distribution est normale.
Cependant, j'ai rencontré deux messages Stack ( ici et ici ), ce qui mine fortement l'utilité de ce test. On dirait que si l'échantillon est gros (348 est-il considéré comme gros?), Il dira toujours que la distribution n'est pas normale.
Comment dois-je interpréter tout cela? Dois-je m'en tenir au tracé QQ et supposer que ma distribution est normale?
la source
Réponses:
Vous n'avez pas de problème ici. Vos données peuvent être légèrement non normales, mais elles sont suffisamment normales pour qu'elles ne posent aucun problème. De nombreux chercheurs effectuent des tests statistiques en supposant la normalité avec des données beaucoup moins normales que celles que vous avez.
Je ferais confiance à tes yeux. La densité et les parcelles QQ semblent raisonnables, malgré un léger biais positif sur les queues. À mon avis, vous n'avez pas à vous soucier de la non-normalité de ces données.
Vous avez un N d'environ 350, et les valeurs de p dépendent fortement de la taille des échantillons. Avec un grand échantillon, presque tout peut être significatif. Cela a été discuté ici.
Il y a des réponses incroyables sur ce post très populaire qui arrive à la conclusion que mener un test de signification d'hypothèse nulle pour la non-normalité est "essentiellement inutile". La réponse acceptée sur ce post est une fabuleuse démonstration que, même lorsque les données ont été générées à partir d'un processus presque gaussien, une taille d'échantillon suffisamment élevée rend le test non normal significatif.
Désolé, j'ai réalisé que j'avais un lien vers un message que vous aviez mentionné dans votre question d'origine. Ma conclusion demeure cependant: vos données ne sont pas si anormales qu'elles devraient poser des problèmes.
la source
Votre distribution n'est pas normale. Regardez les queues (ou leur absence). Voici ce que vous attendez d'un tracé QQ normal.
Reportez-vous à ce post sur la façon d'interpréter les différents graphiques QQ.
Gardez à l'esprit que même si une distribution peut ne pas être techniquement normale, elle peut être suffisamment normale pour se qualifier pour des algorithmes qui nécessitent une normalité.
la source