Comment effectuer un test bootstrap pour comparer les moyennes de deux échantillons?

12

J'ai deux échantillons fortement asymétriques et j'essaie d'utiliser le bootstrap pour comparer leurs moyennes en utilisant la statistique t.

Quelle est la bonne procédure pour le faire?


Le processus que j'utilise

Je m'inquiète de l'opportunité d'utiliser l'erreur type des données originales / observées à l'étape finale lorsque je sais que ce n'est pas normalement distribué.

Voici mes étapes:

  • Bootstrap - échantillon aléatoire avec remplacement (N = 1000)
  • Calculer la statistique t pour chaque bootstrap pour créer une distribution t :
    T(b)=(X¯b1-X¯b2)-(X¯1-X¯2)σXb12/n+σXb22/n
  • Estimer les intervalles de confiance t en obtenant et 1 - α / 2 centiles de la distribution tα/21-α/2
  • Obtenez des intervalles de confiance via:

    C I U = ( ¯ X 1 - ¯ X 2 ) + T _ C I U . S E o r i g i n a l

    CjeL=(X¯1-X¯2)-T_CjeL.SEorjegjenunel
    CjeU=(X¯1-X¯2)+T_CjeU.SEorjegjenunel
    SE=σX12/n+σX22/n
  • Regardez où se situent les intervalles de confiance pour déterminer s'il y a une différence significative dans les moyennes (c.-à-d. Non nulle)

J'ai également examiné la somme des rangs de Wilcoxon, mais elle ne donne pas de résultats très raisonnables en raison de la distribution très fortement asymétrique (par exemple, le 75e == 95e centile). Pour cette raison, je voudrais explorer davantage le test t amorcé.

Mes questions sont donc:

  1. Est-ce une méthodologie appropriée?
  2. Est-il approprié d'utiliser le SE des données observées lorsque je sais qu'elles sont fortement biaisées?

Duplication possible: quelle méthode est préférée, un test d'amorçage ou un test non paramétrique basé sur le classement?

CatsLoveJazz
la source
Quelle est la taille des échantillons?
Michael M
@Michael Mayer Autour de 800
CatsLoveJazz

Réponses:

16

Je ferais juste un test de bootstrap régulier:

  • calculer la statistique t dans vos données et la stocker
  • modifier les données de telle sorte que l'hypothèse nulle soit vraie. Dans ce cas, soustrayez la moyenne du groupe 1 pour le groupe 1 et ajoutez la moyenne globale, et faites de même pour le groupe 2, de cette façon les moyennes dans les deux groupes seront la moyenne globale.
  • Prenez des échantillons bootstrap de cet ensemble de données, probablement de l'ordre de 20 000.
  • calculer la statistique t dans chacun de ces échantillons de bootstrap. La distribution de ces statistiques t est l'estimation bootstrap de la distribution d'échantillonnage de la statistique t dans vos données asymétriques si l'hypothèse nulle est vraie.
  • p(+1)(+1)

Vous pouvez en savoir plus à ce sujet dans:

  • Chapitre 4 de AC Davison et DV Hinkley (1997) Bootstrap Methods and their Application . Cambridge: Cambridge University Press.

  • Chapitre 16 de Bradley Efron et Robert J. Tibshirani (1993) An Introduction to the Bootstrap . Boca Raton: Chapman & Hall / CRC.

  • Entrée Wikipédia sur le test d'hypothèse bootstrap.

Maarten Buis
la source
C'est essentiellement ce que je fais, mais en regardant la proportion de fois où la statistique t originale / observée est> = statistique t enveloppée par des bottes. Est-il correct de faire un test t sur des données fortement asymétriques dans le premier cas, c'est l'une des raisons pour lesquelles je veux booster.
CatsLoveJazz
2
Techniquement, pour le test de bootstrap, vous avez juste besoin d'une statistique de test, donc ce n'est pas un problème. Sur le fond, un test t compare les moyennes et, dans les données asymétriques, les médianes sont souvent plus significatives que les moyennes. Un test comparant les médianes au lieu des moyennes peut donc avoir plus de sens. Cependant, cela dépend de votre hypothèse nulle, qui est votre choix et votre seul choix.
Maarten Buis
Ok merci, c'est la moyenne que nous voulons tester car toutes nos autres sorties l'ont été sous cette forme.
CatsLoveJazz