Contexte: je fais une présentation à des collègues de travail sur le test d'hypothèse, et je comprends la plupart du temps, mais il y a un aspect que je me noue en essayant de comprendre et d'expliquer aux autres.
C'est ce que je pense savoir (veuillez corriger en cas d'erreur!)
- Statistiques qui seraient normales si la variance était connue, suivez une distribution si la variance est inconnue
- CLT (Central Limit Theorem): La distribution d'échantillonnage de la moyenne de l'échantillon est approximativement normale pour suffisamment grand (pourrait être , pourrait aller jusqu'à pour des distributions fortement asymétriques)
- La distribution peut être considérée comme normale pour des degrés de liberté
Vous utilisez le test si:
- Normale et variance de la population connues (pour toute taille d'échantillon)
- Population normale, variance inconnue et (due au CLT)
- Binôme de population, ,
Vous utilisez le test si:
- Population normale, variance inconnue et
- Aucune connaissance de la population ou de la variance et , mais les données de l'échantillon semblent normales / réussissent les tests, etc., donc la population peut être supposée normale
Je me retrouve donc avec:
- Pour les échantillons et (?), Aucune connaissance de la population et de la variance connue / inconnue.
Mes questions sont donc:
À quelle taille d'échantillon pouvez-vous supposer (en l'absence de connaissances sur la distribution ou la variance de la population) que la distribution d'échantillonnage de la moyenne est normale (c.-à-d. Que le CLT a démarré) lorsque la distribution d'échantillonnage semble anormale? Je sais que certaines distributions nécessitent , mais certaines ressources semblent dire utiliser le -test chaque fois que ...
Pour les cas dont je ne suis pas sûr, je suppose que je regarde les données pour la normalité. Maintenant, si les données de l'échantillon semblent normales, est-ce que j'utilise le test (puisque supposons que la population est normale et que )?
Qu'en est-il lorsque les exemples de données pour les cas dont je ne suis pas sûr ne semblent pas normaux? Y a-t-il des circonstances où vous utiliseriez toujours un test ou ou tentez-vous toujours de transformer / utiliser des tests non paramétriques? Je sais qu'en raison du CLT, à une valeur de la distribution d'échantillonnage de la moyenne se rapprochera de la normale, mais les données de l'échantillon ne me diront pas quelle est cette valeur de ; les données de l'échantillon pourraient être non normales tandis que la moyenne de l'échantillon suit une normale / . Y a-t-il des cas où vous transformeriez / utiliseriez un test non paramétrique alors qu'en fait la distribution d'échantillonnage de la moyenne était normale / mais vous ne pouviez pas le dire?
Réponses:
@AdamO a raison, vous utilisez simplement toujours le test si vous ne connaissez pas l'écart type de la population a priori. Vous n'avez pas à vous soucier du moment où passer au test z , car la distribution t «bascule» pour vous. Plus précisément, le t -Distribution converge à la normale, il est donc la distribution correcte à utiliser à chaque N .t z t t N
Il y a également une confusion ici quant à la signification de la ligne traditionnelle àN=30 . Il existe deux types de convergence dont les gens parlent:
En tout cas, pour répondre plus explicitement à vos questions, si vous pensez que vos données brutes (au sein du groupe) ne sont pas normalement distribuées, utilisez le testU Mann-Whitney ; si vous pensez que vos données sont normalement distribuées, mais que vous ne connaissez pas la SD a priori, utilisez le test t ; et si vous pensez que vos données sont normalement distribuées et que vous connaissez la SD a priori, utilisez le test z .
Cela peut vous aider à lire la réponse récente de @ GregSnow ici: Interprétation de la valeur de p en comparant également les proportions entre deux petits groupes dans R concernant ces questions.
la source
la source