Pourquoi voudrais-je bootstrap lors du calcul d'un échantillon t-test indépendant? (comment justifier, interpréter et signaler un test t amorcé)

8

Disons que j'ai deux conditions, et ma taille d'échantillon pour les deux conditions est extrêmement faible. Disons que je n'ai que 14 observations dans la première condition et 11 dans l'autre. Je veux utiliser le test t pour tester si les différences moyennes sont significativement différentes les unes des autres.

Tout d'abord, je suis un peu confus quant à l'hypothèse de normalité du test t, ce qui pourrait être la raison pour laquelle je ne reçois pas totalement le bootstrap. Le test t suppose-t-il que (A) les données sont échantillonnées à partir d'une population normale, ou (B) que vos distributions d'échantillons ont des propriétés gaussiennes? Si c'est (B) alors ce n'est pas vraiment une hypothèse, non? Vous pouvez simplement tracer un histogramme de vos données et voir si c'est normal ou non. Si ma taille d'échantillon est faible cependant, je n'aurai pas assez de points de données pour voir si ma distribution d'échantillons est normale.

C'est là que je pense que le bootstrapping entre en jeu. Je peux bootstrap pour voir si mon échantillon est normal, non? Au début, je pensais que l'amorçage entraînerait toujours une distribution normale, mais ce n'est pas le cas (le rééchantillonnage d'amorçage peut-il être utilisé pour calculer un intervalle de confiance pour la variance d'un ensemble de données? Statexchange statexchange ). Donc, une des raisons pour lesquelles vous voudriez bootstrap est d'être plus certain de la normalité de vos échantillons de données, n'est-ce pas?

À ce stade, je deviens complètement confus. Si j'effectue un test t dans R avec la fonction t.test et que je mets les vecteurs d'échantillonnage bootstrap en tant que deux échantillons indépendants, ma valeur t devient simplement incroyablement significative. Suis-je pas en train de faire le test t bootstrapped à droite? Je ne dois pas, parce que tout amorçage fait simplement augmenter ma valeur t, cela ne se produirait-il pas dans tous les cas? Les gens n'effectuent-ils pas un test t sur les échantillons amorcés?

Enfin, quel est l'avantage de calculer les intervalles de confiance sur un bootstrap par rapport au calcul des intervalles de confiance sur notre échantillon d'origine? Qu'est-ce que ces intervalles de confiance me disent que les intervalles de confiance sur les données de l'échantillon d'origine ne le font pas?

Je suppose que je suis confus sur (A) pourquoi utiliser un bootstrap si cela ne fait que rendre ma valeur t plus significative, (B) incertain de la bonne façon d'utiliser le bootstrapping lors de l'exécution d'un échantillon t-test indépendant, et (C) incertain comment signaler la justification, l'exécution et les résultats du bootstrap dans des situations de test t indépendantes.

stat_gurl
la source
N'avez-vous pas par hasard beaucoup plus de points d'échantillonnage dans vos vecteurs d'échantillonnage amorcés que dans vos vecteurs d'échantillonnage d'origine? Si tel est le cas, l'utilisation des vecteurs amorcés dans un test t au lieu des données d'origine revient à augmenter artificiellement la taille de votre échantillon. Cela peut rendre votre p-value arbitrairement petite, mais elle est vide de sens et illégitime.
amoeba

Réponses:

15

Il y a plusieurs malentendus dans votre message (dont certains sont courants et on vous a peut-être dit la mauvaise chose parce que la personne qui vous disait ne faisait que transmettre la désinformation).

Premièrement, le bootstrap n'est pas le sauveur de la petite taille de l'échantillon. Bootstrap est en fait assez mal adapté aux petits échantillons, même lorsque la population est normale. Cette question, cette réponse et cette discussion devraient éclairer cela. Aussi l'article ici donne plus de détails et de fond.

Le test t et le bootstrap sont basés sur des distributions d'échantillonnage, quelle est la distribution de la statistique de test.

Le test t exact est basé sur la théorie et la condition que la population / le processus générant les données est normal. Le test t se révèle être assez robuste à l'hypothèse de normalité (en ce qui concerne la taille du test, la puissance et la précision peuvent être une autre affaire), donc dans certains cas, la combinaison de «assez normal» et de «grande taille d'échantillon» signifie que la distribution d'échantillonnage est "suffisamment proche" de la normale pour que le test t soit un choix raisonnable.

Le bootstrap au lieu de supposer une population normale, utilise l'échantillon CDF comme estimation de la population et calcule / estime (généralement par simulation) la véritable distribution d'échantillonnage (qui peut être normale, mais ne doit pas nécessairement l'être). Si l'échantillon fait un travail raisonnable de représentation de la population, le bootstrap fonctionne bien. Mais pour les petits échantillons, il est très facile pour l'échantillon de faire un mauvais travail de représentation de la population et les méthodes de bootstrap sont moche dans ces cas (voir la simulation et l'article référencé ci-dessus).

L'avantage du test t est que si toutes les hypothèses se vérifient (ou sont proches), cela fonctionne bien (je pense que c'est en fait le test uniformément le plus puissant). L'inconvénient est que cela ne fonctionne pas bien si les hypothèses ne sont pas vraies (et pas près d'être vraies) et il y a des cas où les hypothèses font des différences plus importantes que dans d'autres. Et la théorie du test t ne s'applique pas à certains paramètres / statistiques d'intérêt, par exemple les moyennes ajustées, les écarts-types, les quantiles, etc.

L'avantage du bootstrap est qu'il peut estimer la distribution d'échantillonnage sans la plupart des hypothèses nécessaires aux méthodes paramétriques. Il fonctionne pour des statistiques autres que la moyenne et dans les cas où d'autres hypothèses ne sont pas valables (par exemple 2 échantillons, variances inégales). L'inconvénient du bootstrap est qu'il est très dépendant de l'échantillon représentant la population car il ne présente pas les avantages d'autres hypothèses. Le bootstrap ne vous donne pas de normalité, il vous donne la distribution d'échantillonnage (qui semble parfois normale, mais qui fonctionne quand elle ne l'est pas) sans avoir besoin des hypothèses sur la population.

Pour les tests t où il est raisonnable de supposer que la population est normale (ou au moins assez normale), le test t sera le meilleur (sur les 2).

Si vous n'avez pas de normalité et avez de petits échantillons, alors ni le test t ni le bootstrap ne doivent être approuvés. Pour le cas à 2 échantillons, un test de permutation fonctionnera bien si vous êtes prêt à supposer des distributions égales (y compris des variances égales) sous l'hypothèse nulle. C'est une hypothèse très raisonnable lors d'une expérience randomisée, mais peut-être pas lors de la comparaison de 2 populations distinctes (mais si vous pensez que 2 populations peuvent avoir des spreads / formes différents, alors peut-être qu'un test de moyens n'est pas la question la plus intéressante ou la meilleur endroit pour commencer).

Avec des tailles d'échantillon énormes, la théorie des grands échantillons bénéficiera à la fois aux tests t et au bootstrapping et vous ne verrez pas ou peu de différence lors de la comparaison des moyennes.

Avec des tailles d'échantillon modérées, le bootstrap peut bien fonctionner et peut être préféré lorsque vous ne souhaitez pas faire les hypothèses nécessaires pour les procédures de test t.

L'important est de comprendre les hypothèses et les conditions requises pour les différentes procédures que vous envisagez et d'examiner comment ces conditions et leurs écarts affecteront votre analyse et comment vous pensez que la population / le processus qui a produit vos données correspond à ces conditions. , la simulation peut vous aider à comprendre comment les écarts affectent les différentes méthodes. Rappelez-vous que toutes les procédures statistiques ont des conditions et des hypothèses (à l'exception peut-être de SnowsCorrectlySizedButOtherwiseUselessTestOfAnything , mais si vous utilisez ce test, les gens feront des hypothèses à votre sujet).

Greg Snow
la source
1
Je suis confus sur ce point depuis des années: la normalité asymptotique de X¯sous le CLT pas suffisant pour au test?
shadowtalker
1
@ssdecontrol, normalité asymptotique / CLT signifie simplement qu'une fois que la taille de l'échantillon est suffisamment grande, la distribution d'échantillonnage sera assez proche de la normale, mais elle ne nous dit pas quelle est la taille suffisamment proche. Pour certaines populations, un échantillon de 6 est assez grand, pour d'autres, un échantillon de 10 000 n'est pas assez grand. Il est nécessaire de comprendre à quoi peut ressembler votre population / processus et d'envisager des alternatives.
Greg Snow
@GregSnow Je me pose encore des questions à ce sujet: "Si j'effectue un test t dans R avec la fonction t.test et que je mets les vecteurs d'échantillonnage bootstrap en tant que deux échantillons indépendants, ma valeur t devient simplement incroyablement significative. faire le test t amorcé correctement? Je ne dois pas, parce que tout amorçage consiste simplement à augmenter ma valeur t, cela ne se produirait-il pas dans tous les cas? Les gens n'effectuent-ils pas un test t sur les échantillons amorcés? "
Herman Toothrot
@HermanToothrot, ce que vous faites n'est pas clair lorsque vous dites que vous mettez l'échantillon amorcé dans la fonction t-test. Mais la plupart des choses que je peux imaginer avec cette description sont fausses. Il semble que vous convainquiez l'ordinateur que la taille de votre échantillon est beaucoup plus grande qu'elle ne l'est réellement (ce qui donne plus d'importance), ce qui garantira des réponses fausses / dénuées de sens. Pour bien comprendre le Bootstrapping, il faut plus que ce qui serait contenu dans un commentaire ou même une réponse. Vous devriez vraiment prendre un cours qui couvre le bootstrap ou au moins lire un livre sur le sujet.
Greg Snow