Pourquoi, en moyenne, chaque échantillon bootstrap contient-il environ les deux tiers des observations?

42

Je courir à travers l'affirmation selon laquelle chaque échantillon de bootstrap (ou un arbre mis en sac) contiennent en moyenne environ 2/3 des observations.

Je comprends que la chance de ne pas être sélectionné dans l' un des n tire de n échantillons avec le remplacement est (11/n)n , ce qui correspond à environ 1/3 chances de ne pas être sélectionné.

Qu'est - ce qu'une explication mathématique pour laquelle cette formule donne toujours 1/3 ?

xyzzy
la source
10
Je crois que c’est l’origine du .632 dans la règle du bootstrap 632+.
gung - Rétablir Monica

Réponses:

29

limn(11/n)n=e1
e1=1/e1/3

Cela ne fonctionne pas à très petit - par exemple à , . Il passe à , passe à et par . Une fois que vous avez dépassé , est une meilleure approximation que .nn=2(11/n)n=1413n=60.35n=110.366n=99n=111e13

entrez la description de l'image ici

La ligne pointillée grise est à ; la ligne rouge et grise est à .131e

Plutôt que de montrer une dérivation formelle (qui peut être facilement trouvée), je vais donner un aperçu (c'est-à-dire un argument intuitif et empirique) expliquant pourquoi un résultat (légèrement) plus général est valable:

ex=limn(1+x/n)n

(Beaucoup de gens prennent cela pour la définition de , mais vous pouvez le prouver à partir de résultats plus simples, tels que définir comme .)exp(x)elimn(1+1/n)n

Fait 1: Ceci découle des résultats de base sur les puissances et l’exponentiationexp(x/n)n=exp(x)

Fait 2: Lorsque est grand, Ceci découle de l’extension en série de .nexp(x/n)1+x/nex

(Je peux donner des arguments plus complets pour chacun de ceux-ci mais je suppose que vous les connaissez déjà)

Remplacer (2) par (1). Terminé. (Pour que cela fonctionne comme un argument plus formel, cela prendrait un peu de travail, car il faudrait montrer que les termes restants dans le fait 2 ne deviennent pas assez grands pour causer un problème lorsqu'ils sont portés au pouvoir . Mais ceci est de l'intuition plutôt que la preuve formelle.)n

[Vous pouvez également prendre la série de Taylor pour au premier ordre. Une deuxième approche facile consiste à prendre le développement binomial de et à prendre la limite terme à terme, en montrant qu’il donne les termes de la série pour .]exp(x/n)(1+x/n)nexp(x/n)

Donc si , il suffit de remplacer .ex=limn(1+x/n)nx=1

Immédiatement, nous avons le résultat en haut de cette réponse,limn(11/n)n=e1


Comme le souligne gung dans les commentaires, le résultat de votre question est l’origine de la règle du bootstrap 632

par exemple voir

Efron, B. et R. Tibshirani (1997),
"Améliorations apportées à la validation croisée: la méthode .632+ Bootstrap",
Journal de l'American Statistical Association, vol. 92, n ° 438. (juin), p. 548-560

Glen_b
la source
41

Plus précisément, chaque échantillon bootstrap (ou arbre ensaché) contiendra de l'échantillon.11e0.632

Voyons comment fonctionne le bootstrap. Nous avons un échantillon original avec éléments. Nous tirons les articles avec remplacement de cet ensemble original jusqu'à ce que nous ayons un autre ensemble de taille .x1,x2,xnnn

Il en résulte que la probabilité de choisir un élément (disons, ) lors du premier tirage est de . Par conséquent, la probabilité de ne pas choisir cet élément est . C'est juste pour le premier tirage au sort; il y a un total de tirages, qui sont tous indépendants, de sorte que la probabilité de ne jamais choisir cet élément sur l'un des tirages est de .x11n11nn(11n)n

Maintenant, pensons à ce qui se passe lorsque devient de plus en plus grand. On peut prendre la limite quand va vers l'infini, en utilisant les astuces de calcul habituelles (ou Wolfram Alpha): nn

limn(11n)n=1e0.368

C'est la probabilité qu'un article ne soit pas choisi. Soustrayez-le de l'un pour trouver la probabilité que l'élément soit choisi, ce qui vous donne 0,632.

Matt Krause
la source
5

L'échantillonnage avec remplacement peut être modélisé comme une séquence d'essais binomiaux où "succès" est une instance en cours de sélection. Pour un ensemble de données original de instances, la probabilité de "succès" est de et la probabilité de "défaillance" est de . Pour une taille d'échantillon de , les chances de sélectionner une instance exactement fois sont données par la distribution binomiale:n1/n(n1)/nbx

P(x,b,n)=(1n)x(n1n)bx(bx)

Dans le cas spécifique d'un échantillon bootstrap, la taille de l'échantillon est égale au nombre d'instances . Laissant approcher l’infini, nous obtenons:bnn

limn(1n)x(n1n)nx(nx)=1ex!

Si notre jeu de données d'origine est volumineux, nous pouvons utiliser cette formule pour calculer la probabilité qu'une instance soit sélectionnée fois exactement dans un échantillon bootstrap. Pour , la probabilité est de , soit environ . La probabilité qu'une instance soit échantillonnée au moins une fois est donc de .xx=01/e0.36810.368=0.632

Inutile de dire que j'ai minutieusement dérivé cette technique en utilisant un stylo et du papier et que je n'ai même pas envisagé d'utiliser Wolfram Alpha.

Retsreg
la source
4

En ajoutant simplement à la réponse de @ retsreg, cela peut également être démontré assez facilement via une simulation numérique dans R:

N <- 1e7 # number of instances and sample size
bootstrap <- sample(c(1:N), N, replace = TRUE)
round((length(unique(bootstrap))) / N, 3)
## [1] 0.632
vonjd
la source
1

Cela peut être facilement vu en comptant. Combien total d'échantillons possibles? n ^ n. Combien ne contiennent pas une valeur spécifique? (n-1) ^ n. Probabilité qu'un échantillon n'ait pas de valeur spécifique - (1-1 / n) ^ n, ce qui correspond à environ 1/3 de la limite.

Maxim Khesin
la source