J'examine une partie de mon ensemble de données contenant 46840 valeurs doubles allant de 1 à 1690 regroupées en deux groupes. Afin d'analyser les différences entre ces groupes, j'ai commencé par examiner la distribution des valeurs afin de choisir le bon test.
Après un guide sur les tests de normalité, j'ai fait un qqplot, un histogramme et un boxplot.
Cela ne semble pas être une distribution normale. Étant donné que le guide déclare quelque peu correctement qu'un examen purement graphique n'est pas suffisant, je veux également tester la distribution pour la normalité.
Compte tenu de la taille de l'ensemble de données et de la limitation du test des shapiro-wilks dans R, comment la distribution donnée doit-elle être testée pour la normalité et compte tenu de la taille de l'ensemble de données, est-ce encore fiable? ( Voir réponse acceptée à cette question )
Éditer:
La limitation du test Shapiro-Wilk dont je parle est que l'ensemble de données à tester est limité à 5000 points. Pour citer une autre bonne réponse concernant ce sujet:
Un problème supplémentaire avec le test de Shapiro-Wilk est que lorsque vous lui fournissez plus de données, les chances de rejet de l'hypothèse nulle deviennent plus grandes. Donc, ce qui se passe, c'est que pour de grandes quantités de données, même de très petits écarts par rapport à la normalité peuvent être détectés, conduisant au rejet de l'événement d'hypothèse nulle mais à des fins pratiques, les données sont plus que suffisamment normales.
[...] Heureusement, shapiro.test protège l'utilisateur de l'effet décrit ci-dessus en limitant la taille des données à 5000.
Quant à savoir pourquoi je teste la distribution normale en premier lieu:
Certains tests d'hypothèse supposent une distribution normale des données. Je veux savoir si je peux ou non utiliser ces tests.
Réponses:
Je ne vois pas pourquoi tu t'embêterais. Ce n'est manifestement pas normal - dans ce cas, l'examen graphique me semble suffisant. Vous avez beaucoup d'observations à partir de ce qui semble être une belle distribution gamma propre. Allez-y. kolmogorov-smirnov si vous devez - je recommanderai une distribution de référence.
x=rgamma(46840,2.13,.0085);qqnorm(x);qqline(x,col='red')
hist(rgamma(46840,2.13,.0085))
boxplot(rgamma(46840,2.13,.0085))
Comme je le dis toujours, "Voir Les tests de normalité sont-ils" essentiellement inutiles "? ", En particulier la réponse de @ MånsT , qui souligne que différentes analyses ont des sensibilités différentes à différentes violations des hypothèses de normalité. Si votre distribution est aussi proche de la mienne qu'elle en a l'air, vous avez probablement l' et kurtosis ("excès de kurtosis" ). Cela risque d'être un problème pour de nombreux tests. Si vous ne pouvez pas simplement trouver un test avec des hypothèses paramétriques plus appropriées ou pas du tout, vous pouvez peut-être transformer vos données, ou au moins effectuer une analyse de sensibilité de toute analyse que vous avez en tête.≈ 5,9 ≈ 2,9≈1.4 ≈5.9 ≈2.9
la source