Il y a longtemps, j'ai appris qu'une distribution normale était nécessaire pour utiliser un test T à deux échantillons. Aujourd'hui, une collègue m'a dit qu'elle avait appris que pour N> 50, une distribution normale n'était pas nécessaire. Est-ce vrai?
Si vrai est-ce à cause du théorème de la limite centrale?
Réponses:
Hypothèse de normalité d'un test t
Considérez une population nombreuse à partir de laquelle vous pouvez prélever de nombreux échantillons différents d’une taille donnée. (Dans une étude particulière, vous ne collectez généralement qu'un seul de ces échantillons.)
Le test t suppose que les moyennes des différents échantillons sont normalement distribuées; cela ne suppose pas que la population est normalement distribuée.
Selon le théorème de la limite centrale, la moyenne des échantillons d'une population à variance finie se rapproche d'une distribution normale quelle que soit la distribution de la population. Selon les règles empiriques, les moyennes des échantillons sont normalement distribuées normalement, à condition que la taille de l'échantillon soit d'au moins 20 ou 30. Pour qu'un test t soit valide sur un échantillon de taille inférieure, la répartition de la population devrait être à peu près normale.
Le test t n'est pas valide pour les petits échantillons de distributions non normales, mais il est valable pour les grands échantillons de distributions non normales.
Petits échantillons de distributions non normales
Comme Michael le note ci-dessous, la taille de l'échantillon nécessaire pour la distribution des moyens permettant de s'approcher de la normalité dépend du degré de non-normalité de la population. Pour les distributions approximativement normales, vous n’avez pas besoin d’un échantillon aussi volumineux qu’une distribution très non normale.
Voici quelques simulations que vous pouvez exécuter dans R pour avoir une idée de cela. Premièrement, voici quelques distributions de population.
Viennent ensuite quelques simulations d’échantillons issus des distributions de population. Dans chacune de ces lignes, "10" est la taille de l'échantillon, "100" le nombre d'échantillons et la fonction qui suit spécifie la distribution de la population. Ils produisent des histogrammes des moyennes des échantillons.
Pour qu'un test t soit valide, ces histogrammes doivent être normaux.
Utilité d'un test t
Je dois noter que toutes les connaissances que je viens de transmettre sont quelque peu obsolètes; Maintenant que nous avons des ordinateurs, nous pouvons faire mieux que les tests t. Comme le note Frank, vous souhaiterez probablement utiliser les tests de Wilcoxon partout où on vous a appris à exécuter un test t.
la source
Le théorème de la limite centrale est moins utile qu'on pourrait le penser dans ce contexte. Tout d'abord, comme quelqu'un l'a déjà souligné, on ne sait pas si la taille de l'échantillon actuel est "suffisamment grande". Deuxièmement, le CLT consiste davantage à obtenir l’erreur de type I souhaitée que l’erreur de type II. En d'autres termes, le test t peut être non compétitif sur le plan de la puissance. C'est pourquoi le test de Wilcoxon est si populaire. Si la normalité est respectée, son efficacité est de 95% celle du test t. Si la normalité ne tient pas, elle peut être arbitrairement plus efficace que le test t.
la source
Voir ma réponse précédente à une question sur la robustesse du test t .
En particulier, je recommande de jouer avec l' applet onlinestatsbook .
L'image ci-dessous est basée sur le scénario suivant:
La simulation obtenue suggère qu'au lieu d'obtenir 5% d'erreurs de type I, je n'obtenais que 4,5% d'erreurs de type I.
Que vous considériez cela robuste dépend de votre perspective.
la source
D'après mon expérience avec le test t à échantillon unique, j'ai constaté que l' inclinaison des distributions est plus importante que le kurtosis, par exemple. Pour les distributions non asymétriques mais à queue grasse (à 5 degrés de liberté, une distribution h de Tukey avec , etc.), j’ai trouvé que 40 échantillons étaient toujours suffisants pour obtenir un taux empirique de type I proche de la valeur nominale. . Lorsque la distribution est très asymétrique, vous aurez peut-être besoin de beaucoup plus d'échantillons.h=0.24999
Par exemple, supposons que vous jouiez à la loterie. Avec une probabilité vous gagnerez 100 000 dollars et avec une probabilité vous perdrez un dollar. Si vous effectuez un test t pour le null indiquant que le rendement moyen estp=10−4 1−p
égal à zérosur la base d'un échantillon de 1 000 tirages de ce processus, je ne pense pas que vous obtiendrez le taux de type I nominal. 1 - pmodifier : duh, la capture de @ whuber dans le commentaire, l’exemple que j’ai donné n’avait pas la moyenne zéro, aussi la recherche de la moyenne zéro n’a-t-elle rien à voir avec le taux de type I.
Parce que l'exemple de loterie a souvent un exemple d'écart-type de zéro, le test t s'étouffe. Donc, au lieu de cela, je donne un exemple de code utilisant la distribution Lambert W x gaussienne de Goerg . La distribution que j'utilise ici a un biais d'environ 1355.
Ce code donne le taux de rejet empirique au niveau nominal de 0,05 pour différentes tailles d'échantillon. Pour l'échantillon de taille 50, le taux empirique est de 0,40 (!); pour une taille d'échantillon de 250, 0,29; pour la taille d'échantillon 1000, 0,21; pour la taille de l'échantillon 2000, 0,18. Il est clair que le test t à un échantillon est asymétrique.
la source
Le théorème de la limite centrale établit (dans les conditions requises) que le numérateur de la statistique t est asymptotiquement normal. La statistique t a également un dénominateur. Pour avoir une distribution t, il faudrait que le dénominateur soit indépendant et racine carrée d'un chi carré sur sa df.
Et nous savons que ce ne sera pas indépendant (cela caractérise la normale!)
Le théorème de Slutsky combiné au CLT vous donnerait que la statistique t est asymptotiquement normale (mais pas nécessairement à un taux très utile).
Quel théorème établirait que la statistique t est approximativement t-distribuée quand il y a non normalité, et à quelle vitesse elle rentre? (Bien sûr, le t- finira par se rapprocher de la normale également, mais nous supposons que l'approximation d'une autre approximation sera meilleure que la simple approximation normale ...)
Cependant, l'effet sur sa puissance est plus important que la prétendue robustesse au niveau du (pour des échantillons de plus grande taille) . Notez que l'efficacité relative asymptotique du test t par rapport au test de Wilcoxon-Mann-Whitney (par exemple) peut être de 0 t avoir le même pouvoir qu'une alternative évidente).t
Ainsi, alors que le test t finit par avoir une belle distribution nulle d'aspect normal si est suffisamment grand, ses performances sous null ne sont pas vraiment ce qui importe le plus aux gens - elles sont sous l'autre - et Dans ce cas, cela n’est peut-être pas si bon, si vous tenez à rejeter le zéro dans les cas où l’effet n’est pas aussi facile à détecter.n
la source
Oui, le théorème de la limite centrale nous dit que c'est vrai. Tant que vous évitez les traits extrêmement épais, la non-normalité ne pose aucun problème pour les échantillons de taille modérée à grande.
Voici un article de revue utile;
http://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546
Le test de Wilcoxon (mentionné par d'autres) peut avoir un pouvoir terrible lorsque l'alternative n'est pas un changement de localisation de la distribution d'origine. En outre, la manière dont il mesure les différences entre les distributions n’est pas transitoire.
la source
À propos de l’utilisation du test de Wilcoxon-Mann-Whitney comme solution de rechange, je recommande le document intitulé Le test de Wilcoxon-Man-Whitney à l’étude
En tant que test des moyennes ou des médianes, le test de Wilcoxon – Mann – Whitney (WMW) peut ne pas donner lieu à des écarts graves par rapport au modèle à décalage pur.
Voici la recommandation des auteurs du document:
La transformation de rang peut modifier les moyennes, les écarts-types et les asymétries des deux échantillons différemment. La seule situation dans laquelle il est garanti que la transformation du rang produit un effet bénéfique est lorsque les distributions sont identiques et que la taille des échantillons est identique. Pour les écarts par rapport à ces hypothèses plutôt strictes, les effets de la transformation de rang sur les moments d'échantillonnage sont imprévisibles. Dans l’étude de simulation du papier, le test WMW a été comparé au test Fligner – Policello (FP), au test Brunner – Munzel (BM), au test T à deux échantillons (T), au test Welch U (U), et le test Welch U sur les rangs (RU). Les quatre tests basés sur le classement (WMW, FP, BM et RU) ont donné les mêmes résultats, bien que le test BM ait souvent été un peu meilleur que les autres. Lorsque les tailles d'échantillon étaient égales, les tests paramétriques (T et U) étaient supérieurs aux tests basés sur les rangs sous l'hypothèse nulle de l'égalité des moyennes, mais pas sous l'hypothèse nulle de la médiane égale. Lorsque la taille des échantillons était inégale, les tests BM, RU et U ont donné les meilleurs résultats. Dans plusieurs contextes, de petits changements dans les propriétés de la population ont entraîné de grandes modifications des performances des tests. En résumé, le test de WMW approximatif sur grand échantillon peut être une mauvaise méthode pour comparer les moyennes ou les médianes de deux populations, à moins que les deux distributions aient des formes et des échelles égales. Ce problème semble également s’appliquer à divers degrés au test WMW exact, au test FP, au test BM et au test Welch U sur les grades. Lors de l’utilisation du test WMW, les auteurs recommandent que les propriétés des échantillons classés fassent l’objet d’une étude approfondie pour rechercher les signes d’asymétrie et d’hétérogénéité de la variance.
la source