Moyenne de l'échantillon bootstrap vs statistique de l'échantillon

18

Disons que j'ai un échantillon et l' échantillon de bootstrap de cet échantillon pour un stastitique (par exemple la moyenne). Comme nous le savons tous, cet échantillon bootstrap estime la distribution d'échantillonnage de l'estimateur de la statistique.χ

Maintenant, la moyenne de cet échantillon bootstrap est-elle une meilleure estimation de la statistique de la population que la statistique de l' échantillon d' origine ? Dans quelles conditions serait-ce le cas?

Amelio Vazquez-Reina
la source
2
La moyenne de l'échantillon bootstrap est la moyenne de l'échantillon et vous n'avez pas besoin d'un échantillon bootstrap dans ce cas.
Xi'an
1
Merci @ Xi'an, je ne suis pas sûr de suivre. La moyenne de l'échantillon bootstrap peut être numériquement différente de la moyenne de l'échantillon. Essayez-vous de dire que les deux sont toujours théoriquement équivalents? Pouvez-vous confirmer des deux côtés?
Amelio Vazquez-Reina
2
Clarifions notre terminologie: "échantillon bootstrap" pourrait faire référence soit à un échantillon spécifique avec remplacement à partir des données, soit à une variable aléatoire (multivariée) dont un tel échantillon serait considéré comme une réalisation. Vous avez raison de dire que la moyenne d'une réalisation peut différer de la moyenne des données, mais @ Xi'an fournit l'observation la plus pertinente selon laquelle la moyenne de la variable aléatoire (qui par définition est l' estimation bootstrap de la moyenne de la population ) doit coïncider avec la moyenne des données.
whuber
1
Ensuite, votre question est presque identique à stats.stackexchange.com/questions/126633/… ; la seule différence est que les réalisations de l'échantillon bootstrap peuvent se chevaucher, mais l'analyse donnée dans la réponse y est facilement reportée à la situation bootstrap, avec le même résultat.
whuber
1
Je vois la connexion @whuber, bien que dans le bootstrap on ait des "sous-ensembles avec remplacement" et les réalisations peuvent se chevaucher, comme vous l'avez dit. J'imagine que la distribution (par exemple pseudo-aléatoire) utilisée pour obtenir les ré-échantillons dans le bootstrap peut également affecter le biais de l'estimation à partir de l'échantillon du bootstrap. La réponse est peut-être que pour toutes les questions pratiques, la différence est négligeable. C'est cela la question: les conditions, les subtilités et la différence de pratique.
Amelio Vazquez-Reina

Réponses:

19

Généralisons, afin de nous concentrer sur le nœud du problème. J'exposerai les moindres détails afin de ne laisser aucun doute. L'analyse ne requiert que les éléments suivants:

  1. La moyenne arithmétique d'un ensemble de nombres est définie comme étantz1,,zm

    1m(z1++zm).
  2. L'attente est un opérateur linéaire. Autrement dit, lorsque sont des variables aléatoires et sont des nombres, alors l'attente d'une combinaison linéaire est la combinaison linéaire des attentes,α iZje,je=1,,mαje

    E(α1Z1++αmZm)=α1E(Z1)++αmE(Zm).

Soit un échantillon obtenu à partir d'un ensemble de données en prenant éléments uniformément de avec remplacement. Soit soit la moyenne arithmétique de . Il s'agit d'une variable aléatoire. alors( B 1 , , B k ) x = ( x 1 , , x n ) k x m ( B ) BB(B1,,Bk)X=(X1,,Xn)kXm(B)B

E(m(B))=E(1k(B1++Bk))=1k(E(B1)++E(Bk))

suit par la linéarité de l'attente. Puisque les éléments de sont tous obtenus de la même façon, ils ont tous la même attente, b dit:Bb

E(B1)==E(Bk)=b.

Cela simplifie ce qui précède pour

E(m(B))=1k(b+b++b)=1k(kb)=b.

Par définition, l'attente est la somme des valeurs pondérées par la probabilité. Étant donné que chaque valeur de est supposée avoir une chance égale de 1 / n d'être sélectionnée,X1/n

E(m(B))=b=E(B1)=1nX1++1nXn=1n(X1++Xn)=X¯,

la moyenne arithmétique des données.

Pour répondre à la question, si l'on utilise la moyenne des données pour estimer la moyenne de la population, alors la moyenne bootstrap (ce qui est le cas k = n ) est également égale à ˉ x , et est donc identique comme estimateur de la moyenne de la population.X¯k=nX¯


Pour les statistiques qui ne sont pas des fonctions linéaires des données, le même résultat ne tient pas nécessairement. Cependant, il serait faux de simplement substituer la moyenne de bootstrap à la valeur de la statistique sur les données: ce n'est pas ainsi que fonctionne le bootstrap. Au lieu de cela, en comparant la moyenne de bootstrap à la statistique des données, nous obtenons des informations sur le biais de la statistique. Cela peut être utilisé pour ajuster la statistique d'origine pour supprimer le biais. Ainsi, l'estimation corrigée du biais devient ainsi une combinaison algébrique de la statistique d'origine et de la moyenne de bootstrap. Pour plus d'informations, recherchez «BCa» (bootstrap à correction de biais et accéléré) et «ABC». Wikipedia fournit quelques références.

whuber
la source
Vous voulez dire que l'attente de la moyenne de bootstrap est égale à la moyenne des données, non? La moyenne de bootstrap elle-même n'est pas déterminée par l'échantillon de données (d'origine).
capybaralet
@ user2429920 La moyenne de bootstrap est une statistique déterminée par l'échantillon. En ce sens, elle est identique à la moyenne de l'échantillon. Son attente est prise dans le sens de la distribution d'échantillonnage. Je soupçonne que vous utilisez peut-être "l'attente" dans un sens différent par rapport au processus de calcul de la moyenne de bootstrap via un sous-échantillonnage répété avec remplacement.
whuber
1
Je pense que le dernier paragraphe est la vraie réponse à cette question car il est général et ne se concentre pas uniquement sur la statistique moyenne. J'avais le même doute que le PO, et je n'étais pas au courant de l'existence de BCa. Bien que la démonstration de cette réponse ne m'a pas beaucoup aidé (je n'utilise pas la moyenne comme statistique), le dernier paragraphe était très clair sur le nœud du problème. Je crois que la réponse de Xi'an aborde également le cas où la statistique moyenne est utilisée, donc même problème. Je vous remercie!
Gabriel
1
@Gabriel bons points. J'ai vérifié le dossier: avant l'édition, cette question ne posait à l'origine que la moyenne. C'est pourquoi les réponses semblent être si concentrées sur cette statistique.
whuber
9

Puisque la distribution est défini comme bootstrap F n ( x ) = 1

F^n(X)=1nje=1njeXjeXXjeiidF(X),
EF^n[X]=1nje=1nXje=X¯n
EF^n[X]X¯n
Xi'an
la source
2
+1 C'est la réponse que je voulais à l'origine écrire, mais je craignais qu'elle soit trop opaque pour certains lecteurs. Je suis néanmoins heureux de le voir si élégamment présenté. Je ne sais pas ce que vous voulez dire dans votre dernière phrase, cependant, où vous semblez différencier l '"attente" de l'approximation simulée de la moyenne de sa "limite": puisque l'attente est constante (elle ne varie pas avec la taille de la simulation ), il n'y a vraiment aucune limite à prendre.
whuber
@whuber: Merci pour le commentaire et désolé d'avoir écrit ma réponse laconique exactement en même temps que la vôtre! Vos explications sont certainement plus lisibles par les novices en bootstrap. J'ai corrigé la dernière phrase, dont la partie limitante est la loi des grands nombres.
Xi'an
3
Votre utilisation de «méchant» dans cette dernière phrase est assez ambiguë! Je l'ai compris à partir de votre indice LLN. Pour toute simulation finie de la distribution bootstrap, chaque échantillon de la simulation produit sa propre moyenne (il y a une seule signification de «moyenne»). La moyenne de tous ces échantillons dans une simulation donnée produit une moyenne de simulation (il y a une autre signification). La moyenne de simulation converge vers une constante au fur et à mesure que la taille de la simulation augmente, ce qui est la moyenne de bootstrap (un troisième sens), ce qui est égal à la moyenne de l'échantillon (le quatrième sens). (Et cela estime la moyenne de la population - un cinquième sens!)
Whuber