L'entrée Wikipedia sur Bootstrapping est en fait très bonne:
http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29
La raison la plus courante pour laquelle l'amorçage est appliqué est lorsque la forme de la distribution sous-jacente à partir de laquelle un échantillon est prélevé est inconnue. Traditionnellement, les statisticiens supposent une distribution normale (pour de très bonnes raisons liées au théorème de la limite centrale), mais les statistiques (telles que l'écart type, les intervalles de confiance, les calculs de puissance, etc.) estimées via la théorie de la distribution normale ne sont strictement valables que si la distribution sous-jacente de la population est Ordinaire.
En rééchantillonnant à plusieurs reprises l'échantillon lui-même, l'amorçage permet des estimations indépendantes de la distribution. Traditionnellement, chaque "rééchantillonnage" de l'échantillon d'origine sélectionne au hasard le même nombre d'observations que dans l'échantillon d'origine. Cependant, ceux-ci sont sélectionnés avec remplacement. Si l'échantillon a N observations, chaque rééchantillonnage bootstrap aura N observations, avec de nombreux échantillons originaux répétés et plusieurs exclus.
Le paramètre d'intérêt (par exemple, le rapport de cotes, etc.) peut ensuite être estimé à partir de chaque échantillon amorcé. Répéter le bootstrap disons 1000 fois permet une estimation de la "médiane" et de l'intervalle de confiance à 95% sur la statistique (par exemple, le rapport de cotes) en sélectionnant le 2,5e, le 50e et le 97,5e centile.
Le wiki sur l' amorçage donne la description suivante:
Je fournirai plus de détails si vous pouvez clarifier quelle partie de la description ci-dessus vous ne comprenez pas.
la source
J'aime à y penser comme suit: si vous obtenez un échantillon aléatoire de données à partir d'une population, alors vraisemblablement cet échantillon aura des caractéristiques qui correspondent à peu près à celles de la population source. Donc, si vous souhaitez obtenir des intervalles de confiance sur une caractéristique particulière de la distribution, son asymétrie par exemple, vous pouvez traiter l'échantillon comme une pseudo-population à partir de laquelle vous pouvez obtenir de nombreux ensembles de pseudo-échantillons aléatoires, en calculant la valeur de la caractéristique d'intérêt dans chacun. L'hypothèse selon laquelle l'échantillon d'origine correspond approximativement à la population signifie également que vous pouvez obtenir les pseudo-échantillons en échantillonnant à partir de la pseudo-population "avec remplacement" (par exemple, vous échantillonnez une valeur, l'enregistrez puis la remettez en place; ainsi, chaque valeur a une chance d’être observée plusieurs fois.).
la source
Bootstrap est essentiellement une simulation d'expérience répétitive; disons que vous avez une boîte avec des boules et que vous voulez obtenir une taille moyenne d'une balle - alors vous en dessinez quelques-unes, mesurez et prenez une moyenne. Maintenant, vous voulez le répéter pour obtenir la distribution, par exemple pour obtenir un écart-type - mais vous avez découvert que quelqu'un a volé la boîte.
Ce qui peut être fait maintenant, c'est d'utiliser ce que vous avez - cette seule série de mesures. L'idée est de mettre les boules dans la nouvelle boîte et de simuler l'expérience originale en dessinant le même nombre de boules avec remplacement - les deux pour avoir la même taille d'échantillon et une certaine variabilité. Maintenant, cela peut être reproduit plusieurs fois pour obtenir une série de moyennes qui peuvent finalement être utilisées pour approximer la distribution moyenne.
la source
la source