Taille minimale de l'échantillon pour le test t non apparié

16

Existe-t-il une "règle" pour déterminer la taille d'échantillon minimale requise pour qu'un test t soit valide?

Par exemple, une comparaison doit être effectuée entre les moyennes de 2 populations. Il y a 7 points de données d'une population et seulement 2 points de données de l'autre. Malheureusement, l'expérience est très coûteuse et prend du temps, et il n'est pas possible d'obtenir plus de données.

Un test t peut-il être utilisé? Pourquoi ou pourquoi pas? Veuillez fournir des détails (les variances et les répartitions de la population ne sont pas connues). Si un test t ne peut pas être utilisé, un test non paramétrique (Mann Whitney) peut-il être utilisé? Pourquoi ou pourquoi pas?

Johnny perplexe
la source
2
Cette question couvre du matériel similaire et intéressera les téléspectateurs de cette page: Existe - t-il une taille d'échantillon minimale requise pour que le test t soit valide? .
gung - Rétablir Monica
Voir également cette question où les tests avec des tailles d'échantillon encore plus petites sont discutés.
Glen_b -Reinstate Monica

Réponses:

8

Je recommanderais d'utiliser le test non paramétrique de Mann-Whitney U plutôt qu'un test t non apparié ici.

Il n'y a pas de taille d'échantillon minimale absolue pour le test t , mais à mesure que la taille des échantillons diminue, le test devient plus sensible à l'hypothèse que les deux échantillons sont tirés de populations avec une distribution normale. Avec des échantillons aussi petits, en particulier avec un échantillon de deux seulement, vous devez être très sûr que la répartition de la population est normale - et cela doit être basé sur des connaissances externes, car ces petits échantillons ne fournissent en eux-mêmes que très peu d'informations sur la normalité ou non de leurs distributions. Mais vous dites que "les variances et les répartitions de la population ne sont pas connues" (mes italiques).

Le Mann-Whitney test de U ne nécessite aucune hypothèse sur la forme paramétrique des distributions, ne nécessitant que l'hypothèse que les distributions des deux groupes sont les mêmes sous l'hypothèse nulle.

un arrêt
la source
6
Pas une bonne recommandation pour des échantillons extrêmement petits. Avec 7 et 2 échantillons, le test U échouera, quelle que soit la différence entre la moyenne des groupes. Regardez ma réponse pour un exemple.
AlefSin
2
J'appuie ce que dit @AlefSin. S'il est important pour vous de tirer des conclusions valables (et non seulement d'obtenir une valeur de p), alors les hypothèses les plus résonantes que vous pouvez faire sont meilleures. S'il existe des informations de base raisonnables, vous pouvez également ajouter encore plus d'hypothèses si vous avez effectué votre analyse dans un cadre bayésien.
Rasmus Bååth
2
Un problème est qu'avec de si petites tailles d'échantillon, le Wilcoxon-Mann-Whitney ne peut pas atteindre des niveaux de signification typiques. Avec des tailles d'échantillon de 7 et 2, vous n'obtiendrez jamais un résultat significatif au niveau de 5%, quelle que soit la différence. Considérez (1.018,1.031,1.027,1.020,1.021,1.019,1.024) vs (713.2, 714.5) - non significatif au niveau de 5%!
Glen_b -Reinstate Monica
3
Cela dit, si l'on a et n 2 = 2 , il y a un très bon argument selon lequel on devrait peut-être se demander si un test de 5% a du sens en premier lieu. Une évaluation correcte du coût des deux types d'erreur peut conduire à un choix tout à fait différent. n1=7n2=2
Glen_b -Reinstate Monica
6

(avertissement: je ne peux pas bien taper aujourd'hui: ma main droite est fracturée!)

Contrairement aux conseils d'utiliser un test non paramétrique dans d'autres réponses, vous devez considérer que pour des échantillons extrêmement petits, ces méthodes ne sont pas très utiles. Il est facile de comprendre pourquoi: dans les études de très petite taille, aucune différence entre les groupes ne peut être établie à moins qu'une grande taille d'effet soit observée. Cependant, les méthodes non paramétriques ne tiennent pas compte de l'ampleur de la différence entre les groupes. Ainsi, même si la différence entre les deux groupes est énorme, avec un échantillon de petite taille, un test non paramétrique échouera toujours à rejeter l'hypothèse nulle.

Prenons cet exemple: deux groupes, distribution normale, même variance. Groupe 1: moyenne 1,0, 7 échantillons. Groupe 2: moyenne 5, 2 échantillons. Il y a une grande différence entre les moyennes.

wilcox.test(rnorm(7, 1), rnorm(2, 5))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 5)
W = 0, p-value = 0.05556

La valeur de p calculée est de 0,05556, ce qui ne rejette pas l'hypothèse nulle (à 0,05). Maintenant, même si vous augmentez la distance entre les deux moyennes d'un facteur 10, vous obtiendrez la même valeur de p:

wilcox.test(rnorm(7, 1), rnorm(2, 50))

   Wilcoxon rank sum test

data:  rnorm(7, 1) and rnorm(2, 50)
W = 0, p-value = 0.05556

Maintenant, je vous invite à répéter la même simulation avec le test t et à observer les valeurs de p dans le cas de différences importantes (moyenne 5 vs 1) et énormes (moyenne 50 vs 1).

AlefSin
la source
5

Il n'y a pas de taille d'échantillon minimale pour un test t; le test t était en fait conçu pour de petits échantillons. Autrefois, lorsque les tableaux étaient imprimés, vous avez vu des tableaux de test t pour de très petits échantillons (mesurés par df).

Bien sûr, comme pour les autres tests, s'il y a un petit échantillon, seul un effet assez important sera statistiquement significatif.

Peter Flom - Réintégrer Monica
la source
Mais l'inverse sera-t-il également un problème? C'est-à-dire, les valeurs aberrantes qui se trouvaient être échantillonnées pourraient-elles conduire à rejeter faussement l'hypothèse nulle? Ou la faible puissance pour détecter les différences est-elle un problème plus important? Dans cette situation particulière, je vois une différence significative entre les moyens, mais je ne sais pas à quel point «lui faire confiance».
Johnny Puzzled
2
Avec n = 2, vous êtes certainement vulnérable à l'influence des valeurs aberrantes - valeurs aberrantes dans la population; comment un échantillon de 2 peut-il avoir une valeur aberrante dans l'échantillon? :-) Je n'essaierais pas de statistiques inférentielles dans cette situation. Les perspectives sont mauvaises pour arriver à la «vérité», et vous vous laisserez largement ouvert aux critiques.
rolando2
2
La raison pour laquelle l'intervalle de confiance sera large est précisément parce que vous pourriez obtenir une valeur aberrante. Mais le test t suppose toujours que les échantillons proviennent d'une population normale.
Peter Flom - Réintègre Monica
2

Je suppose que vous voulez dire que vous avez 7 points de données d'un groupe et 2 points de données d'un deuxième groupe, qui sont tous deux des sous-ensembles de populations (par exemple, un sous-ensemble d'hommes et un sous-ensemble de femmes).

Les mathématiques du test t peuvent être obtenues à partir de cette page Wikipedia . Nous supposerons un test t indépendant à deux échantillons, avec des tailles d'échantillon inégales (7 contre 2) et des variances inégales, donc environ à mi-chemin sur cette page. Vous pouvez voir que le calcul est basé sur les moyennes et les écarts-types. Avec seulement 7 sujets dans un groupe et 2 sujets dans un autre, vous ne pouvez pas supposer que vous avez de bonnes estimations pour la moyenne ou l'écart-type. Pour le groupe avec 2 sujets, la moyenne est simplement la valeur qui se situe exactement au milieu des deux points de données, donc elle n'est pas bien estimée. Pour le groupe de 7 sujets, la taille de l'échantillon affecte fortement les variances (et donc les écarts-types, qui sont la racine carrée de la variance) car les valeurs extrêmes exercent un effet beaucoup plus fort lorsque vous avez un échantillon plus petit.

Par exemple, si vous regardez l' exemple de base sur la page Wikipedia pour l'écart-type, vous verrez que l'écart-type est de 2, et la variance (au carré de l'écart-type) est donc de 4. Mais si nous n'avions que les deux premiers points de données (le 9 et le 1), la variance serait 10/2 = 5 et l'écart-type serait 2,2 et si nous n'avions que les deux dernières valeurs (le 4 et le 16), la variance serait 20/2 = 10 et l'écart type serait de 3,2. Nous utilisons toujours les mêmes valeurs, juste un peu moins, et nous pouvons voir l'effet sur nos estimations.

C'est le problème avec l'utilisation de statistiques inférentielles avec de petits échantillons, vos résultats seront particulièrement fortement affectés par l'échantillonnage.

Mise à jour: y a-t-il une raison pour laquelle vous ne pouvez pas simplement rapporter les résultats par sujet et indiquer qu'il s'agit d'un travail exploratoire? Avec seulement deux cas, les données sont très similaires à une étude de cas, et elles sont à la fois (1) importantes à rédiger et (2) à la pratique acceptée.

Michelle
la source
Merci Michelle. C'est intéressant et utile de savoir. Cependant, que recommanderiez-vous d'un point de vue pratique? Compte tenu de cette situation, quelle est la meilleure façon de procéder? Merci!
Johnny Puzzled
Salut Johnny perplexe. Sans plus d'informations sur votre situation exacte, je me sens incapable de donner plus de conseils.
Michelle
Quel type d'informations est nécessaire?
Johnny Puzzled
1
Bonjour encore, plus d'informations sur la conception de votre étude, telles que vos données, comment vous les avez collectées, quels sont vos groupes, comment les observations ont été sélectionnées. Tout ce que je sais, c'est que vous avez fait une expérience avec 9 observations (des gens? Des rats? Des neurones? Des blocs de fromage? Des fréquences de rayonnement?) Qui sont de deux groupes.
Michelle
Disons que le flux sanguin moyen vers la substance blanche dans le cerveau a été mesuré chez l'homme à l'aide de l'IRM. Les groupes sont des témoins (7 personnes) et des patients appariés selon l'âge et le sexe présentant un trouble particulier (2 personnes).
Johnny Puzzled
1

Article connexe intéressant: «Utilisation du test t de Student avec des tailles de samlpe extrêmement faibles» JCF de Winter (dans Practical Assesment, Research & Evaluation) http://goo.gl/ZAUmGW

Epifunky
la source
0

Je recommanderais de comparer les conclusions que vous obtenez avec les deux, le test t et le test de Mann-Whitney, et également de jeter un œil aux boîtes à moustaches et à la probabilité de profil de la moyenne de chaque population.

Demian
la source
Bonjour @Demian, je ne suis pas sûr que même un boxplot soit utile quand un groupe a un échantillon de 2. Sinon, oui je pense que les boxplots en particulier sont très utiles pour visualiser des données continues à travers les groupes.
Michelle
0

Stata 13/SE code for a bootstrap ttestÉtant donné qu'un test effectué sur de petits échantillons ne remplit probablement pas les exigences du test (principalement, la normalité des populations dont les deux échantillons ont été prélevés), je recommanderais d'effectuer un test bootstrap (avec des variances inégales), suivant Efron B, Tibshirani Rj. Une introduction au Bootstrap. Boca Raton, FL: Chapman & Hall / CRC, 1993: 220-224. Le code d'un test d'amorçage sur les données fournies par Johnny Puzzled dans Stata 13 / SE est indiqué dans l'image ci-dessus.

Carlo Lazzaro
la source
Votre réponse présente de sérieux problèmes de mise en forme. Pourriez-vous la modifier?
amibe dit Réintégrer Monica le
J'ai essayé de résoudre les problèmes de formatage dans la version révisée de la réponse. Merci à amibe de l'avoir signalé.
Carlo Lazzaro
0

Avec un échantillon de 2, la meilleure chose à faire peut être de regarder les chiffres individuels eux-mêmes et de ne pas se soucier de l'analyse statistique.

Kevin
la source
1
À l'heure actuelle, cela ressemble plus à un commentaire. Bien que ce soit un bon point, pour une réponse raisonnable au problème d'origine, une discussion sur la question elle-même pourrait être attendue, même si finalement on conclut qu'il est plus logique de faire autre chose.
Glen_b -Reinstate Monica