Échantillons inégaux: quand l'appeler se ferme

14

Je passe en revue un article d'un journal universitaire par les pairs et les auteurs ont écrit ce qui suit pour justifier le fait de ne pas rapporter de statistiques inférentielles (j'ai identifié la nature des deux groupes):

Au total, 25 des personnes interrogées 2349 (1,1%) ont rapporté X . Nous nous abstenons à juste titre de présenter des analyses qui comparent statistiquement le groupe X au groupe Y (les 2 324 autres participants), car ces résultats pourraient être fortement motivés par le hasard avec un résultat aussi rare.

Ma question est la suivante: les auteurs de cette étude ont-ils raison de jeter l'éponge pour comparer les groupes? Sinon, que puis-je leur recommander?

Aaron Duke
la source

Réponses:

20

Les tests statistiques ne font pas d'hypothèses sur la taille de l'échantillon. Il existe, bien sûr, des hypothèses différentes avec différents tests (par exemple, la normalité), mais l'égalité des tailles d'échantillon n'en fait pas partie. À moins que le test utilisé ne soit inapproprié d'une autre manière (je ne peux pas penser à un problème pour le moment), le taux d'erreur de type I ne sera pas affecté par des tailles de groupe considérablement inégales. De plus, leur formulation implique (à mon avis) qu'ils le croient. Ainsi, ils sont confus sur ces questions.

D'un autre côté, les taux d'erreur de type II seront fortement affectés par des s très inégaux . Cela sera vrai quel que soit le test (par exemple, le test t , le test U de Mann-Whitney ou le test z pour l'égalité des proportions seront tous affectés de cette manière). Pour un exemple de cela, voir ma réponse ici: Comment interpréter la comparaison des moyennes de différentes tailles d'échantillon? Ainsi, ils pourraient bien être "justifiés de jeter l'éponge" en ce qui concerne cette question. (Plus précisément, si vous vous attendez à obtenir un résultat non significatif, que l'effet soit réel ou non, quel est l'intérêt du test?) ntUz

À mesure que les tailles d'échantillon divergent, la puissance statistique converge vers . Ce fait conduit en fait à une suggestion différente, dont je soupçonne que peu de gens ont déjà entendu parler et auraient probablement du mal à obtenir les anciens examinateurs (aucune infraction prévue): une analyse du pouvoir de compromis . L'idée est relativement simple: dans toute analyse de puissance, α , β , n 1 , n 2 et la taille de l'effet d existent les uns par rapport aux autres. Après avoir spécifié tout sauf un, vous pouvez résoudre le dernier. En règle générale, les gens font ce qu'on appelle une analyse de puissance a priori , dans laquelle vous résolvez pour Nααβn1n2dN(vous supposez généralement ). D'un autre côté, vous pouvez fixer n 1 , n 2 et d , et résoudre pour α (ou de manière équivalente β ), si vous spécifiez le rapport entre les taux d'erreur de type I et de type II avec lesquels vous êtes prêt à vivre. Conventionnellement, α = 0,05 et β = 0,20 , vous dites donc que les erreurs de type I sont quatre fois pires que les erreurs de type I. Bien sûr, un chercheur donné pourrait être en désaccord avec cela, mais après avoir spécifié un rapport donné, vous pouvez résoudre ce que αn1=n2n1n2dαβα=.05β=.20αvous devez utiliser afin de maintenir éventuellement une puissance adéquate. Cette approche est une option logiquement valable pour les chercheurs dans cette situation, bien que je reconnaisse que l'exotisme de cette approche peut en faire une vente difficile dans la communauté de recherche plus large qui n'a probablement jamais entendu parler d'une telle chose.

gung - Réintégrer Monica
la source
C'est extrêmement utile. J'ai également trouvé votre réponse à Comment interpréter la comparaison des moyennes de différentes tailles d'échantillon? utile dans ma propre compréhension de cette question. Après avoir lu votre réponse, j'évoquerai la possibilité d'une analyse de puissance de compromis pour les auteurs (cela semble être une valeur sûre qu'ils ne la connaissent pas) et je suggérerai peut-être d'être plus précis dans leurs commentaires en ce qui concerne les préoccupations concernant le pouvoir.
Aaron Duke
2
Vous êtes les bienvenus, @AaronD. À mon avis, vous devriez certainement les encourager à changer leur formulation au minimum car cela est trompeur ou implique qu'ils comprennent mal le sujet. Je prédis qu'ils n'essaieront pas l'analyse de puissance de compromis, mais ils pourraient également signaler des statistiques descriptives (moyennes et écarts-types) et une taille d'effet avec des intervalles de confiance appropriés.
gung - Rétablir Monica
6

Bien que la réponse de @gung soit excellente, je pense qu'il y a un problème important à prendre en compte lorsque l'on regarde des tailles de groupe extrêmement différentes. Généralement, tant que toutes les exigences du test sont remplies, la différence de taille de groupe n'est pas importante.

Cependant, dans certains cas, la taille différente du groupe aura un effet dramatique sur la robustesse du test contre les violations de ces hypothèses. Le test t non apparié classique à deux échantillons, par exemple, suppose l'homongénité de la variance et n'est robuste contre les violations que si les deux groupes sont de taille similaire (par ordre de grandeur). Sinon, une variance plus élevée dans le groupe plus petit entraînera des erreurs de type I. Maintenant, avec le test t, ce n'est pas vraiment un problème car généralement le test t de Welch est utilisé à la place et il ne suppose pas l'homogénéité de la variance. Cependant, des effets similaires peuvent survenir dans les modèles linéaires.

En résumé, je dirais que cela ne constitue en aucun cas un obstacle à une analyse statistique, mais il faut en tenir compte au moment de décider comment procéder.

Erik
la source
8
Je crois que le nœud du problème ici n'est pas l'applicabilité des tests, mais plutôt leur signification et leur interprétabilité. La question fait référence aux «répondants». Cela suggère fortement la possibilité d'un taux de non-réponse non nul. Même un minuscule taux de non-réponse (une petite fraction d'un pour cent) par rapport à la taille de l'étude équivaudrait à un énorme taux de non-réponse par rapport au petit sous-groupe. Cela remet en question la représentativité de tout sous-groupe aussi petit. En conséquence, c'est un énorme obstacle à toute analyse statistique.
whuber