Chance que l'échantillon de bootstrap soit exactement le même que l'échantillon d'origine

9

Je veux juste vérifier un raisonnement.

Si mon échantillon d'origine est de taille et que je l'amorce, alors mon processus de réflexion est le suivant:n

1n est la chance de toute observation tirée de l'échantillon d'origine. Pour nous assurer que le prochain tirage n'est pas l'observation précédemment échantillonnée, nous limitons la taille de l'échantillon à n-1 . Ainsi, nous obtenons ce modèle:

1n1n-11n-21n-(n-1)=1n!.

Est-ce correct? Je trébuche sur pourquoi cela ne peut pas être (1n)n place.

Jayant.M
la source
1
Je ne suis pas sûr de te suivre. Pourquoi voulez-vous "vous assurer que le prochain tirage n'est pas l'échantillon précédent"? Dans le bootstrap, l'idée est d'échantillonner avec remplacement. Autrement dit, vous ne voulez qu'il soit possible que le prochain tirage est le même que celui que vous avez déjà dessiné.
gung - Rétablir Monica
mais cela ne signifie-t-il pas que l'échantillon amorcé n'est pas le même que l'échantillon d'origine?
Jayant.M
Je ne te suis pas. Vous ne voulez pas nécessairement que l'échantillon de bottes soit identique à votre échantillon, vous voulez simplement traiter l'échantillon comme un modèle de la population.
gung - Rétablir Monica
1
Ma question est donc quelle est la chance que l'échantillon de bootstrap soit le même que l'échantillon d'origine. Je suis intéressé par le fait que le bootstrap soit identique à l'échantillon
Jayant.M
Désolé si ma question n'était pas claire!
Jayant.M

Réponses:

17

Notez que chaque position d'observation ( ) , on peut choisir l' une des n observations, donc il y a n n rééchantillons possibles (maintenir l'ordre dans lequel ils sont tirés) dont n ! sont le "même échantillon" (c.-à-d. contiennent les n observations originales sans répétition; cela explique toutes les façons de classer l'échantillon avec lequel nous avons commencé).je=1,2,...,nnnnn!n

Par exemple, avec trois observations, a, b et c, vous avez 27 échantillons possibles:

aaa aab aac aba abb abc aca acb acc 
baa bab bac bba bbb bbc bca bcb bcc 
caa cab cac cba cbb cbc cca ccb ccc 

Six d'entre eux contiennent chacun a, b et c.

Alors est la probabilité de récupérer l'échantillon d'origine.n!/nn

Mis à part - une approximation rapide de la probabilité:

Considérez que :

2π nn+12e-nn!e nn+12e-n

donc

2π n12e-nn!/nne n12e-n

La borne inférieure étant la limite habituelle donnée pour l'approximation de Stirling (qui présente une faible erreur relative pour les grands ).n

[Gosper a suggéré d' utiliser qui donnerait l'approximationn!(2n+13)πnne-n pour cette probabilité, qui fonctionne raisonnablement bien jusqu'à n = 3 , voire jusqu'à n = 1 selon la rigueur de vos critères.](2n+13)πe-nn=3n=1


(1-1n)nne-1

Pour plus de détails, voir
Pourquoi chaque échantillon bootstrap contient-il environ les deux tiers des observations?

Glen_b -Reinstate Monica
la source
une,b,cune
1
C'est déjà couvert dans d'autres réponses sur le site, mais je l'ai ajouté ci-dessus (brièvement).
Glen_b -Reinstate Monica
1
(1n)n
1
n!
1
n=1n=3n=2n=1