Échantillons de petite taille et déséquilibrés pour deux groupes - que faire?

J'ai des données pour deux groupes (c'est-à-dire des échantillons) que je souhaite comparer mais la taille totale de l'échantillon est petite (n = 29) et fortement déséquilibrée (n = 22 vs n = 7).

Ces données sont logistiquement difficiles et coûteuses à collecter, donc bien que «collecter plus de données» comme solution évidente ne soit pas utile dans ce cas.

Un certain nombre de variables différentes ont été mesurées (date de départ, date d'arrivée, durée de la migration, etc.), il y a donc plusieurs tests, dont certains les variances sont très différentes (le plus petit échantillon ayant une variance plus élevée).

Au départ, un collègue a effectué des tests t sur ces données, et certains étaient statistiquement significatifs avec P <0,001, un autre n'était pas significatif avec P = 0,069. Certains échantillons étaient normalement distribués, d'autres non. Certains tests ont impliqué des écarts importants par rapport aux variances «égales».

J'ai plusieurs questions:

les tests t sont-ils appropriés ici? Sinon, pourquoi? Cela s'applique-t-il uniquement aux tests où les hypothèses de normalité et d'égalité des variances sont satisfaites?
quelle (s) alternative (s) appropriée (s)? Peut-être un test de permutation?
la variance inégale gonfle l'erreur de type I, mais comment? et quel effet la petite taille d'échantillon déséquilibrée a-t-elle sur l'erreur de type I?

t-test sample-size DeanP
la source

Réponses:

Les tests T qui supposent des variances égales des deux populations ne sont pas valides lorsque les deux populations ont des variances différentes, et c'est pire pour des tailles d'échantillon inégales. Si la plus petite taille d'échantillon est celle avec la variance la plus élevée, le test aura une erreur de type I gonflée). La version Welch-Satterthwaite du test t, en revanche, ne suppose pas des variances égales. Si vous pensez au test de permutation de Fisher-Pitman, il suppose lui aussi des variances égales (si vous voulez déduire des moyennes inégales à partir d'une faible valeur de p).

Il y a un certain nombre d'autres choses auxquelles vous voudrez peut-être penser:

(1) Si les variances sont clairement inégales, êtes-vous toujours aussi intéressé par une différence entre les moyennes?

(2) Les estimations d'effet pourraient-elles vous être plus utiles que les valeurs de p?

(3) Voulez-vous considérer la nature multivariée de vos données, plutôt que de simplement faire une série de comparaisons univariées?

Scortchi - Réintégrer Monica
la source

Salut Scortchi, merci pour votre réponse. J'ai examiné les questions que vous avez posées:

DeanP

(1) La variance et la moyenne peuvent être informatives pour notre étude (par exemple, les dates de départ de la migration peuvent être significativement plus tardives pour une population ET la fourchette des dates de départ est plus variable).

DeanP

(1) Je viens de le mentionner parce que les gens considèrent souvent les écarts inégaux uniquement comme un problème technique et oublient que c'est un fait intéressant en soi.

Scortchi - Réintégrer Monica

(2) Mon argument était plus qu'une liste de valeurs de p est généralement moins utile qu'une liste d'estimations d'effet (qui pourraient être des moyennes, des médianes, des variances, etc.) avec des intervalles de confiance. Surtout avec de petits échantillons, les intervalles de confiance peuvent montrer si les tailles d'effet d'importance pratique sont toujours concordantes avec les données même lorsque la valeur de p est élevée.

Scortchi - Réintégrer Monica

(3) Je pensais à une variable indépendante (groupe) et à plusieurs variables dépendantes (temps de migration, etc.): une différence intéressante entre les groupes pourrait être un changement dans la relation entre les variables dépendantes. Une première étape serait une belle matrice avec des boîtes à moustaches ou des boîtes à points comparant chaque dv entre les groupes le long de la diagonale, et des diagrammes de dispersion pour chaque paire de dv (encore une fois les groupes distinctifs) dans les autres cellules. Et pour être honnête, pour une analyse exploratoire avec de petits échantillons, cela pourrait bien être la dernière étape.

Scortchi - Réintégrer Monica

Premièrement, comme Scortchi l'a déjà souligné, le test T ne convient pas si bien à vos données, en raison de ses hypothèses sur la distribution des données.

Pour votre deuxième point, je proposerais une alternative au test T. Si votre intérêt ne porte que sur le fait, si les distributions de vos deux échantillons sont égales ou non, vous pouvez également essayer d'utiliser la version bilatérale du test de somme de rang de Wilcoxon. Le test de somme de rang de Wilcoxon est un test non paramétrique. Ce type de test est particulièrement utile si vous n'êtes pas sûr de la distribution sous-jacente de vos données.

Il existe une solution exacte du test pour les petits échantillons ainsi que pour les grandes cohortes. De plus, il existe également un package R qui réalise le test de somme de rang de Wilcoxon.

Puisqu'il s'agit d'un test sans paramètre et qu'il gère également de petites tailles d'échantillon, le test devrait convenir à votre cas de test.

Alex VII
la source