Shapiro – Wilk «inversé»

11

Le test de Sharipo-Wilk, selon wikipedia , teste l'hypothèse nulle ( ) "La population est normalement distribuée".H0

Je recherche un test de normalité similaire avec "La population n'est pas normalement distribuée".H0

Ayant un tel test, je veux calculer une valeur de pour rejeter au niveau de signification ssi ; prouvant que ma population est normalement répartie.pH0αp<α

Veuillez noter que l'utilisation du test de Sharipo-Wilk et l'acceptation de si est une approche incorrecte car cela signifie littéralement "nous n'avons pas suffisamment de preuves pour prouver que H0 ne tient pas".H0p>α

Discussions connexes - sens de -valuep , est la normalité inutile l' essai? , mais je ne vois pas de solution à mon problème.

Les questions: quel test dois-je utiliser? Est-il implémenté dans R?

petrbel
la source
6
Une hypothèse nulle de "non normalement distribué" n'est pas utilisable. Cet espace comprendrait toutes les distributions arbitrairement proches, mais pas tout à fait, des distributions normales. Vous me donnez un ensemble fini de données. Je sélectionne la distribution empirique, qui n'est pas normale, et appartient donc à l'espace nul. Ne peut pas rejeter.
A. Webb
5
Cette question, qui est la même que la précédente, demande l'impossible. Une bonne réponse expliquerait le fonctionnement des tests d'hypothèses statistiques, c'est pourquoi je vous ai signalé stats.stackexchange.com/questions/31 dans un commentaire à votre autre question.
whuber
5
Alors qu'une hypothèse nulle "non normalement distribuée" est impossible, une hypothèse nulle "est distribuée avec des valeurs absolues de statistique de qualité d'ajustement normale qui est au moins aussi différente que " dans le sens d'un test d'équivalence semble raisonnable. En d'autres termes, on devrait être en mesure de tester contre un nul de «non normal par au moins autant ». @gung l'a suggéré précisément dans sa réponse. ε
Alexis

Réponses:

10

Il n'existe pas de test pour que vos données soient normalement distribuées. Il n'y a que des tests que vos données ne sont pas normalement distribuées. Ainsi, il existe des tests comme le Shapiro-Wilk où (il y en a beaucoup d'autres), mais aucun test où le zéro est que la population n'est pas normale et l'hypothèse alternative est que la population est normale. H0:normal

Tout ce que vous pouvez faire est de déterminer le type d'écart par rapport à la normalité dont vous vous souciez (par exemple, l'asymétrie) et l'ampleur de cet écart avant qu'il ne vous dérange. Ensuite, vous pouvez tester pour voir si l'écart de la normalité parfaite dans vos données était inférieur à la quantité critique. Pour plus d'informations sur l'idée générale, il pourrait être utile de lire ma réponse ici: pourquoi les statisticiens disent-ils qu'un résultat non significatif signifie «vous ne pouvez pas rejeter le nul» au lieu d'accepter l'hypothèse nulle?

gung - Réintégrer Monica
la source
5

Je veux calculer une valeur de p pour rejeter H0 au niveau de signification α ssi p <α; prouvant que ma population est normalement répartie.

La distribution normale survient lorsque les données sont générées par une série d'événements additifs iid (voir l'image en quinconce ci-dessous). Cela signifie qu'il n'y a pas de rétroaction ni de corrélation, cela ressemble-t-il au processus qui mène vos données? Sinon, ce n'est probablement pas normal.

Il se peut que ce type de processus se produise dans votre cas. Le plus proche que vous pouvez en venir à "prouver" est de collecter suffisamment de données pour exclure toute autre distribution que les gens peuvent trouver (ce qui n'est probablement pas pratique). Une autre façon consiste à déduire la distribution normale de certaines théories ainsi que d'autres prédictions. Si les données sont cohérentes avec chacune d'elles et que personne ne peut penser à une autre explication, ce serait une bonne preuve en faveur de la distribution normale.

https://upload.wikimedia.org/wikipedia/commons/7/7f/Quincunx_%28Galton_Box%29_-_Galton_1889_diagram.png https://en.wikipedia.org/wiki/Bean_machine

Maintenant, si vous ne vous attendez pas à une distribution spécifique a priori, il peut toujours être raisonnable d'utiliser la distribution normale pour résumer les données, mais reconnaissez qu'il s'agit essentiellement d'un choix par ignorance ( https://en.wikipedia.org/wiki/ Principle_of_maximum_entropy ). Dans ce cas, vous ne voulez pas savoir si la population est normalement distribuée, vous voulez plutôt savoir si la distribution normale est une approximation raisonnable quelle que soit votre prochaine étape.

Dans ce cas, vous devez fournir vos données (ou des données générées similaires) avec une description de ce que vous prévoyez d'en faire, puis demander "De quelles manières l'hypothèse de normalité dans ce cas peut-elle m'induire en erreur?"

Livide
la source
En fait, je sais que les données sont normales (mesure indépendante sur des ordinateurs indépendants), mais je dois faire quelques hypothèses pour ma thèse .. merci pour la clarification et l'exemple :)
petrbel
1
Soit dit en passant, Krieger a fourni une belle critique des utilisations du Quincunx de Galton dans Krieger, N. (2012). Qui et qu'est-ce qu'une «population»? débats historiques, controverses actuelles et implications pour comprendre la «santé de la population» et corriger les inégalités en matière de santé. The Milbank Quarterly , 90 (4): 634–681.
Alexis
@petrbel Cette situation est subtilement différente de ce qui est décrit ci-dessus. Vous pouvez concevoir un quinconce où chaque observation est iid mais pas le processus qui génère les données. Voir ici pour un exemple de log-normal: LIMPERT et al. Distributions log-normales dans les sciences: clés et indices. Mai 2001 / Vol. 51 No. 5. BioScience.
Livide
1
@Alexis Je vois que Krieger (2012) reproduit la figure de Limpert et al. (2001) et fait valoir le point manqué par Petrbel: "la modification de la structure peut changer les probabilités de résultat, même pour des objets identiques, créant ainsi des distributions de population différentes".
Livid
2

Vous ne pourrez jamais "prouver" une hypothèse de normalité dans vos données. N'offrir des preuves contre cela que comme hypothèse. Le test de Shapiro-Wilk est une façon de le faire et est utilisé tout le temps pour justifier l'hypothèse de normalité. Le raisonnement est que vous commencez par supposer la normalité. Vous demandez alors, mes données suggèrent-elles que je fais une supposition stupide? Alors allez-y et testez-le avec Shapiro-Wilk. Si vous ne parvenez pas à rejeter l'hypothèse nulle, les données ne suggèrent pas que vous faites une supposition stupide.

Remarquez, les gens utilisent cette logique similaire tout le temps dans la pratique - pas seulement dans le contexte du test de Shapiro-Wilk. Ils veulent utiliser la régression linéaire, regarder un diagramme de dispersion et voir si la régression linéaire est une idée idiote. Ou bien, ils supposent une hétéroscédasticité et tracent des termes d'erreur pour voir si c'est une idée idiote.Y,X

TrynnaDoStat
la source
Cette pratique que vous décrivez est exactement l'approche incorrecte mentionnée par Petrbel. Les tests sont généralement cohérents, donc plus la taille de l'échantillon est grande, plus la probabilité de déclarer l'hypothèse de normalité est une idée stupide. C'est en soi idiot, car avec des échantillons plus grands, l'hypothèse de normalité est moins critique en raison de la robustesse asymptotique de la plupart des procédures.
Horst Grünbusch
@ HorstGrünbusch Êtes-vous en désaccord avec le fait que le test de Shapiro-Wilk est un moyen valide de tester l'hypothèse que les données sont normales?
TrynnaDoStat
Si vous acceptez que c'est une approche valable, je ne sais pas avec quoi vous n'êtes pas d'accord dans ma réponse.
TrynnaDoStat
Non. Voir les arguments ici: stats.stackexchange.com/questions/2492/… . En outre, il n'est pas valide de tester l'hypothèse nulle selon laquelle deux échantillons ont la même variance et d'utiliser le test de Satterthwaite uniquement si les variances sont significativement différentes, sinon le test t pour les échantillons homoskédastiques. Simulez vous-même cette procédure composite: vous pouvez générer des taux d'erreur de type I jusqu'à . 2α
Horst Grünbusch
@ HorstGrünbusch Il semble que votre problème avec ma réponse soit lié à l'idée du test d'hypothèse en général. Plus précisément, le fait que dans de nombreuses situations, les tests d'hypothèse rejetteront le nul avec la probabilité 1 lorsque la taille de l'échantillon approche de l'infini.
TrynnaDoStat