Choisir entre test et test

20

Contexte: je fais une présentation à des collègues de travail sur le test d'hypothèse, et je comprends la plupart du temps, mais il y a un aspect que je me noue en essayant de comprendre et d'expliquer aux autres.

C'est ce que je pense savoir (veuillez corriger en cas d'erreur!)

  • Statistiques qui seraient normales si la variance était connue, suivez une distribution si la variance est inconnuet
  • CLT (Central Limit Theorem): La distribution d'échantillonnage de la moyenne de l'échantillon est approximativement normale pour suffisamment grand (pourrait être , pourrait aller jusqu'à pour des distributions fortement asymétriques)n30300
  • La distribution peut être considérée comme normale pour des degrés de libertét>30

Vous utilisez le test si:z

  1. Normale et variance de la population connues (pour toute taille d'échantillon)
  2. Population normale, variance inconnue et (due au CLT)n>30
  3. Binôme de population, ,np>10nq>10

Vous utilisez le test si:t

  1. Population normale, variance inconnue etn<30
  2. Aucune connaissance de la population ou de la variance et , mais les données de l'échantillon semblent normales / réussissent les tests, etc., donc la population peut être supposée normalen<30

Je me retrouve donc avec:

  • Pour les échantillons et (?), Aucune connaissance de la population et de la variance connue / inconnue.>30<≈300

Mes questions sont donc:

  1. À quelle taille d'échantillon pouvez-vous supposer (en l'absence de connaissances sur la distribution ou la variance de la population) que la distribution d'échantillonnage de la moyenne est normale (c.-à-d. Que le CLT a démarré) lorsque la distribution d'échantillonnage semble anormale? Je sais que certaines distributions nécessitent , mais certaines ressources semblent dire utiliser le -test chaque fois que ...n>300zn>30

  2. Pour les cas dont je ne suis pas sûr, je suppose que je regarde les données pour la normalité. Maintenant, si les données de l'échantillon semblent normales, est-ce que j'utilise le test (puisque supposons que la population est normale et que )?zn>30

  3. Qu'en est-il lorsque les exemples de données pour les cas dont je ne suis pas sûr ne semblent pas normaux? Y a-t-il des circonstances où vous utiliseriez toujours un test ou ou tentez-vous toujours de transformer / utiliser des tests non paramétriques? Je sais qu'en raison du CLT, à une valeur de la distribution d'échantillonnage de la moyenne se rapprochera de la normale, mais les données de l'échantillon ne me diront pas quelle est cette valeur de ; les données de l'échantillon pourraient être non normales tandis que la moyenne de l'échantillon suit une normale / . Y a-t-il des cas où vous transformeriez / utiliseriez un test non paramétrique alors qu'en fait la distribution d'échantillonnage de la moyenne était normale / mais vous ne pouviez pas le dire? tznntt

Hatti
la source
4
" pourrait aller jusqu'à 300 pour des distributions très asymétriques " ... dans certains cas, cela pourrait être beaucoup plus; ou cela pourrait ne jamais arriver. Choisissez n'importe quel , et je vais vous montrer un cas où ce n'est pas suffisant. n
Glen_b -Reinstate Monica
Merci Glen_b - alors vérifiez toujours que les données d'exemple semblent normales pour utiliser paramétrique?
Hatti
@Hatti non! Le test T est valide lorsque les données semblent anormales.
AdamO

Réponses:

24

@AdamO a raison, vous utilisez simplement toujours le test si vous ne connaissez pas l'écart type de la population a priori. Vous n'avez pas à vous soucier du moment où passer au test z , car la distribution t «bascule» pour vous. Plus précisément, le t -Distribution converge à la normale, il est donc la distribution correcte à utiliser à chaque N . tzttN

Il y a également une confusion ici quant à la signification de la ligne traditionnelle à N=30 . Il existe deux types de convergence dont les gens parlent:

  1. La première est que la distribution d'échantillonnage de la statistique de test (c.-à-d. t ) calculée à partir des données brutes normalement distribuées (au sein du groupe) converge vers une distribution normale sous la forme N malgré le fait que l'écart-type est estimé à partir des données. (La distribution t s'occupe de cela pour vous, comme indiqué ci-dessus.)
  2. La seconde est que la distribution d'échantillonnage de la moyenne des données brutes non distribuées normalement (au sein du groupe) converge vers une distribution normale (plus lentement que ci-dessus) lorsque N . Les gens comptent sur le théorème de la limite centrale pour s'en occuper à leur place. Cependant, rien ne garantit qu'il convergera dans une taille d'échantillon raisonnable - il n'y a certainement aucune raison de croire que 30 (ou 300 ) est le nombre magique. Selon l'ampleur et la nature de la non-normalité, cela peut prendre très longtemps (cf. réponse de @ Macro ici: régression lorsque les résidus OLS ne sont pas normalement distribués). Si vous croyez que votre ( au sein du groupe) les données brutes ne sont pas tout à fait normal, il peut être préférable d'utiliser un autre type de test, comme le Mann-Whitney U -test . Notez qu'avec des données non normales, le test U Mann-Whitney est susceptible d'être plus puissant que le test t , et peut l'être même si le CLT a démarré. (Il convient également de souligner que le test de normalité est susceptible de vous induire en erreur, voir: les tests de normalité sont-ils «essentiellement inutiles»? )

En tout cas, pour répondre plus explicitement à vos questions, si vous pensez que vos données brutes (au sein du groupe) ne sont pas normalement distribuées, utilisez le test U Mann-Whitney ; si vous pensez que vos données sont normalement distribuées, mais que vous ne connaissez pas la SD a priori, utilisez le test t ; et si vous pensez que vos données sont normalement distribuées et que vous connaissez la SD a priori, utilisez le test z .

Cela peut vous aider à lire la réponse récente de @ GregSnow ici: Interprétation de la valeur de p en comparant également les proportions entre deux petits groupes dans R concernant ces questions.

gung - Réintégrer Monica
la source
Merci, c'était vraiment utile, je savais que je le compliquais trop car le test t pour les n plus grands approche de la normale. Donc à proprement parler, même si n était 1000, le test t devrait être utilisé si SD n'était pas connu a priori?
Hatti
Je vous en prie. Strictement parlant, oui , mais notez qu'il sera très difficile de faire la différence entre la distribution et la distribution normale à ce point. t
gung - Rétablir Monica
Oui définitivement. Désolé d'avoir été si capricieux, juste difficile d'essayer de penser à comment l'expliquer aux autres de manière assez noire et blanche. Merci de votre aide merci!
Hatti
Notez également que le calcul des résultats du test t est à toutes fins utiles sans coût de calcul supplémentaire significatif de nos jours. Nous ne recherchons plus les statistiques de test dans certains tableaux papier qui ne peuvent pas couvrir tous les cas, nous demandons simplement à l'ordinateur. Alors, pourquoi s'inquiéter et se demander si vous pourriez peut-être aussi obtenir les mêmes résultats en utilisant un z-test?
Björn
11

t

ttz

tz

zt

AdamO
la source
Utilisez toujours un test t pour un test non paramétrique des différences de moyennes .. vous voulez dire paramétrique, n'est-ce pas?
Xavier Bourret Sicotte