Je l'ai tracé après avoir fait un test de normalité Shapiro-Wilk. Le test a montré qu'il est probable que la population est normalement répartie. Cependant, comment voir ce "comportement" sur cette intrigue?
MISE À JOUR
Un histogramme simple des données:
MISE À JOUR
Le test Shapiro-Wilk dit:
Réponses:
Non; ça n'a pas montré ça.
Les tests d'hypothèses ne vous disent pas quelle est la probabilité que la valeur NULL soit atteinte. En fait, vous pouvez parier que cette valeur nulle est fausse.
Le graphique QQ ne donne pas une forte indication de non-normalité (le graphique est plutôt simple); il y a peut-être une queue gauche légèrement plus courte que ce à quoi vous vous attendiez, mais cela importera peu.
L'histogramme en l'état ne dit probablement pas grand-chose non plus; cela suggère également une queue gauche légèrement plus courte. Mais voir ici
La distribution de la population à partir de laquelle vos données ne vont pas être tout à fait normale. Cependant, le graphique QQ montre que la normalité est probablement une approximation raisonnablement bonne.
Si la taille de l'échantillon n'était pas trop petite, l'absence de rejet de Shapiro-Wilk aurait probablement le même effet.
Mise à jour: votre modification pour inclure la valeur p réelle de Shapiro-Wilk est importante, car cela indiquerait que vous rejetteriez la valeur nulle à des niveaux significatifs typiques. Ce test indique que vos données ne sont pas distribuées normalement et que l’asymétrie légère indiquée par les graphiques est probablement ce qui est détecté par le test. Pour les procédures typiques qui peuvent supposer la normalité de la variable elle-même (le test t à échantillon unique en est un qui nous vient à l’esprit), à ce qui semble être une taille d’échantillon assez grande, cette légère non-normalité n’aura presque aucune conséquence tous - un des problèmes avec les tests de qualité de l'ajustement est qu'ils sont plus susceptibles de rejeter juste quand cela n'a pas d'importance (lorsque la taille de l'échantillon est suffisamment grande pour détecter une légère non-normalité); de même, ils sont plus susceptibles de ne pas rejeter quand c'est le plus important (lorsque la taille de l'échantillon est petite).
la source
Si les données sont distribuées normalement, les points du tracé QQ-normal sont situés sur une droite diagonale. Vous pouvez ajouter cette ligne à votre tracé QQ avec la commande
qqline(x)
, oùx
est le vecteur de valeurs.Exemples de distribution normale et non normale:
Distribution normale
Le graphique QQ-normal avec la ligne:
Les déviations par rapport à la ligne droite sont minimes. Cela indique une distribution normale.
L'histogramme:
Distribution non normale (gamma)
Le graphique QQ-normal:
Les points suivent clairement une autre forme que la ligne droite.
L'histogramme confirme la non-normalité. La distribution n'est pas en forme de cloche, mais positivement asymétrique (c'est-à-dire que la plupart des points de données se trouvent dans la moitié inférieure). Les histogrammes des distributions normales montrent la fréquence la plus élevée au centre de la distribution.
la source
qqPlot
fonction dans lecar
package.Quelques outils pour vérifier la validité de l'hypothèse de normalité dans R
la source
Bien que ce soit une bonne idée de vérifier visuellement si votre intuition correspond au résultat de certains tests, vous ne pouvez pas vous attendre à ce que cela soit facile à chaque fois. Si les personnes essayant de détecter le boson de Higgs ne faisaient confiance à leurs résultats que si elles pouvaient les évaluer visuellement, elles auraient besoin d'un œil très vif.
Surtout avec de grands ensembles de données (et donc, généralement, avec une puissance croissante), les statistiques ont tendance à prendre en compte les différences les plus minimes, même lorsqu'elles sont à peine perceptibles à l'œil nu.
Cela étant dit: pour la normalité, votre graphique QQ devrait afficher une ligne droite: je dirais que ce n'est pas le cas. Il y a des courbes claires dans les queues et même près du milieu, il y a une certaine agitation. Visuellement, je serais peut-être encore disposé à dire (en fonction de l'objectif de vérification de la normalité) que ces données sont "raisonnablement" normales, cependant.
Remarquez cependant: dans la plupart des cas où vous souhaitez vérifier la normalité, vous n'avez besoin que de la normalité des moyens plutôt que de la normalité des observations. Le théorème de la limite centrale peut donc suffire à vous sauver. De plus, alors que la normalité suppose souvent que vous devez vérifier "officiellement", il a été démontré que de nombreux tests étaient assez insensibles pour que cette hypothèse ne soit pas remplie.
la source
J'aime la version 'voiture' de la bibliothèque 'R' car elle fournit non seulement la tendance centrale, mais aussi les intervalles de confiance. Il fournit des indications visuelles pour vous aider à vérifier si le comportement des données est cohérent avec la distribution hypothétique.
quelques liens:
la source