Je veux juste vérifier un raisonnement.
Si mon échantillon d'origine est de taille et que je l'amorce, alors mon processus de réflexion est le suivant:
est la chance de toute observation tirée de l'échantillon d'origine. Pour nous assurer que le prochain tirage n'est pas l'observation précédemment échantillonnée, nous limitons la taille de l'échantillon à . Ainsi, nous obtenons ce modèle:
Est-ce correct? Je trébuche sur pourquoi cela ne peut pas être place.
sampling
bootstrap
sample-size
subsampling
Jayant.M
la source
la source
Réponses:
Notez que chaque position d'observation ( ) , on peut choisir l' une des n observations, donc il y a n n rééchantillons possibles (maintenir l'ordre dans lequel ils sont tirés) dont n ! sont le "même échantillon" (c.-à-d. contiennent les n observations originales sans répétition; cela explique toutes les façons de classer l'échantillon avec lequel nous avons commencé).i = 1 , 2 , . . . , n n nn n ! n
Par exemple, avec trois observations, a, b et c, vous avez 27 échantillons possibles:
Six d'entre eux contiennent chacun a, b et c.
Alors est la probabilité de récupérer l'échantillon d'origine.n ! / nn
Mis à part - une approximation rapide de la probabilité:
Considérez que :
donc
La borne inférieure étant la limite habituelle donnée pour l'approximation de Stirling (qui présente une faible erreur relative pour les grands ).n
[Gosper a suggéré d' utiliser qui donnerait l'approximation √n ! ≈ ( 2 n + 13)π---------√nne- n pour cette probabilité, qui fonctionne raisonnablement bien jusqu'à n = 3 , voire jusqu'à n = 1 selon la rigueur de vos critères.]( 2 n + 13) π--------√e- n n = 3 n = 1
Pour plus de détails, voir
Pourquoi chaque échantillon bootstrap contient-il environ les deux tiers des observations?
la source