Le test de Sharipo-Wilk, selon wikipedia , teste l'hypothèse nulle ( ) "La population est normalement distribuée".
Je recherche un test de normalité similaire avec "La population n'est pas normalement distribuée".
Ayant un tel test, je veux calculer une valeur de pour rejeter au niveau de signification ssi ; prouvant que ma population est normalement répartie.
Veuillez noter que l'utilisation du test de Sharipo-Wilk et l'acceptation de si est une approche incorrecte car cela signifie littéralement "nous n'avons pas suffisamment de preuves pour prouver que H0 ne tient pas".
Discussions connexes - sens de -value , est la normalité inutile l' essai? , mais je ne vois pas de solution à mon problème.
Les questions: quel test dois-je utiliser? Est-il implémenté dans R?
Réponses:
Il n'existe pas de test pour que vos données soient normalement distribuées. Il n'y a que des tests que vos données ne sont pas normalement distribuées. Ainsi, il existe des tests comme le Shapiro-Wilk où (il y en a beaucoup d'autres), mais aucun test où le zéro est que la population n'est pas normale et l'hypothèse alternative est que la population est normale.H0:normal
Tout ce que vous pouvez faire est de déterminer le type d'écart par rapport à la normalité dont vous vous souciez (par exemple, l'asymétrie) et l'ampleur de cet écart avant qu'il ne vous dérange. Ensuite, vous pouvez tester pour voir si l'écart de la normalité parfaite dans vos données était inférieur à la quantité critique. Pour plus d'informations sur l'idée générale, il pourrait être utile de lire ma réponse ici: pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le nul» au lieu d'accepter l'hypothèse nulle?
la source
La distribution normale survient lorsque les données sont générées par une série d'événements additifs iid (voir l'image en quinconce ci-dessous). Cela signifie qu'il n'y a pas de rétroaction ni de corrélation, cela ressemble-t-il au processus qui mène vos données? Sinon, ce n'est probablement pas normal.
Il se peut que ce type de processus se produise dans votre cas. Le plus proche que vous pouvez en venir à "prouver" est de collecter suffisamment de données pour exclure toute autre distribution que les gens peuvent trouver (ce qui n'est probablement pas pratique). Une autre façon consiste à déduire la distribution normale de certaines théories ainsi que d'autres prédictions. Si les données sont cohérentes avec chacune d'elles et que personne ne peut penser à une autre explication, ce serait une bonne preuve en faveur de la distribution normale.
https://en.wikipedia.org/wiki/Bean_machine
Maintenant, si vous ne vous attendez pas à une distribution spécifique a priori, il peut toujours être raisonnable d'utiliser la distribution normale pour résumer les données, mais reconnaissez qu'il s'agit essentiellement d'un choix par ignorance ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). Dans ce cas, vous ne voulez pas savoir si la population est normalement distribuée, vous voulez plutôt savoir si la distribution normale est une approximation raisonnable quelle que soit votre prochaine étape.
Dans ce cas, vous devez fournir vos données (ou des données générées similaires) avec une description de ce que vous prévoyez d'en faire, puis demander "De quelles manières l'hypothèse de normalité dans ce cas peut-elle m'induire en erreur?"
la source
Vous ne pourrez jamais "prouver" une hypothèse de normalité dans vos données. N'offrir des preuves contre cela que comme hypothèse. Le test de Shapiro-Wilk est une façon de le faire et est utilisé tout le temps pour justifier l'hypothèse de normalité. Le raisonnement est que vous commencez par supposer la normalité. Vous demandez alors, mes données suggèrent-elles que je fais une supposition stupide? Alors allez-y et testez-le avec Shapiro-Wilk. Si vous ne parvenez pas à rejeter l'hypothèse nulle, les données ne suggèrent pas que vous faites une supposition stupide.
Remarquez, les gens utilisent cette logique similaire tout le temps dans la pratique - pas seulement dans le contexte du test de Shapiro-Wilk. Ils veulent utiliser la régression linéaire, regarder un diagramme de dispersion et voir si la régression linéaire est une idée idiote. Ou bien, ils supposent une hétéroscédasticité et tracent des termes d'erreur pour voir si c'est une idée idiote.Y,X
la source