Où est l'amorçage - quelqu'un peut-il fournir une explication simple pour me lancer?

9

Malgré plusieurs tentatives de lecture sur le bootstrap, il semble que je frappe toujours un mur de briques. Je me demande si quelqu'un peut donner une définition raisonnablement non technique du bootstrap?

Je sais qu'il n'est pas possible dans ce forum de fournir suffisamment de détails pour me permettre de le comprendre pleinement, mais une légère poussée dans la bonne direction avec l'objectif principal et le mécanisme de bootstrap serait très appréciée! Merci.

pmgjones
la source

Réponses:

8

L'entrée Wikipedia sur Bootstrapping est en fait très bonne:

http://en.wikipedia.org/wiki/Bootstrapping_%28statistics%29

La raison la plus courante pour laquelle l'amorçage est appliqué est lorsque la forme de la distribution sous-jacente à partir de laquelle un échantillon est prélevé est inconnue. Traditionnellement, les statisticiens supposent une distribution normale (pour de très bonnes raisons liées au théorème de la limite centrale), mais les statistiques (telles que l'écart type, les intervalles de confiance, les calculs de puissance, etc.) estimées via la théorie de la distribution normale ne sont strictement valables que si la distribution sous-jacente de la population est Ordinaire.

En rééchantillonnant à plusieurs reprises l'échantillon lui-même, l'amorçage permet des estimations indépendantes de la distribution. Traditionnellement, chaque "rééchantillonnage" de l'échantillon d'origine sélectionne au hasard le même nombre d'observations que dans l'échantillon d'origine. Cependant, ceux-ci sont sélectionnés avec remplacement. Si l'échantillon a N observations, chaque rééchantillonnage bootstrap aura N observations, avec de nombreux échantillons originaux répétés et plusieurs exclus.

Le paramètre d'intérêt (par exemple, le rapport de cotes, etc.) peut ensuite être estimé à partir de chaque échantillon amorcé. Répéter le bootstrap disons 1000 fois permet une estimation de la "médiane" et de l'intervalle de confiance à 95% sur la statistique (par exemple, le rapport de cotes) en sélectionnant le 2,5e, le 50e et le 97,5e centile.

Thylacoleo
la source
8

L'American Scientist a récemment publié un bel article de Cosma Shalizi sur le bootstrap, qui est assez facile à lire et vous donne l'essentiel pour comprendre le concept.

ars
la source
7

Très largement: l'intuition, ainsi que l'origine du nom («se tirer par les bootstraps»), découlent de l'observation qu'en utilisant les propriétés d'un échantillon pour faire des inférences sur une population (le problème «inverse» de la statistique inférence), nous nous attendons à l'erreur. Pour découvrir la nature de cette erreur, traitez l'échantillon lui-même comme une population à part entière et étudiez le fonctionnement de votre procédure inférentielle lorsque vous en tirez des échantillons . C'est un problème "en avant": vous savez tout sur votre échantillon- qua-population et vous n'avez rien à deviner. Votre étude suggérera (a) dans quelle mesure votre procédure inférentielle peut être biaisée et (b) la taille et la nature de l'erreur statistique de votre procédure. Utilisez donc ces informations pour ajuster vos estimations initiales. Dans de nombreuses situations (mais certainement pas toutes), le biais ajusté est asymptotiquement beaucoup plus faible.

Un aperçu fourni par cette description schématique est que le bootstrap ne nécessite pas de simulation ou de sous-échantillonnage répété: il s'agit simplement de moyens omnibus, calculables pour étudier tout type de procédure statistique lorsque la population est connue. Il existe de nombreuses estimations de bootstrap qui peuvent être calculées mathématiquement.

Cette réponse doit beaucoup au livre de Peter Hall "The Bootstrap and Edgeworth Expansion" (Springer 1992), en particulier sa description du "Principe Principal" du bootstrap.

whuber
la source
J'aime cette approche "originale" (par rapport à d'autres entrées). Pourtant, j'ai toujours du mal à expliquer pourquoi le bootstrap fonctionne dans la pratique ...
chl
4

Le wiki sur l' amorçage donne la description suivante:

L'amorçage permet de rassembler de nombreuses versions alternatives de la statistique unique qui seraient normalement calculées à partir d'un échantillon. Par exemple, supposons que nous nous intéressions à la taille des personnes dans le monde. Comme nous ne pouvons pas mesurer toute la population, nous n'en échantillonnons qu'une petite partie. À partir de cet échantillon, une seule valeur d'une statistique peut être obtenue, c'est-à-dire une moyenne ou un écart-type, etc., et donc nous ne voyons pas à quel point cette statistique varie. Lors de l'utilisation du bootstrap, nous extrayons au hasard un nouvel échantillon de n hauteurs des N données échantillonnées, où chaque personne peut être sélectionnée au plus t fois. En faisant cela plusieurs fois, nous créons un grand nombre d'ensembles de données que nous aurions pu voir et calculons les statistiques pour chacun de ces ensembles de données. On obtient ainsi une estimation de la distribution de la statistique.

Je fournirai plus de détails si vous pouvez clarifier quelle partie de la description ci-dessus vous ne comprenez pas.


la source
4

J'aime à y penser comme suit: si vous obtenez un échantillon aléatoire de données à partir d'une population, alors vraisemblablement cet échantillon aura des caractéristiques qui correspondent à peu près à celles de la population source. Donc, si vous souhaitez obtenir des intervalles de confiance sur une caractéristique particulière de la distribution, son asymétrie par exemple, vous pouvez traiter l'échantillon comme une pseudo-population à partir de laquelle vous pouvez obtenir de nombreux ensembles de pseudo-échantillons aléatoires, en calculant la valeur de la caractéristique d'intérêt dans chacun. L'hypothèse selon laquelle l'échantillon d'origine correspond approximativement à la population signifie également que vous pouvez obtenir les pseudo-échantillons en échantillonnant à partir de la pseudo-population "avec remplacement" (par exemple, vous échantillonnez une valeur, l'enregistrez puis la remettez en place; ainsi, chaque valeur a une chance d’être observée plusieurs fois.).

Mike Lawrence
la source
3

Bootstrap est essentiellement une simulation d'expérience répétitive; disons que vous avez une boîte avec des boules et que vous voulez obtenir une taille moyenne d'une balle - alors vous en dessinez quelques-unes, mesurez et prenez une moyenne. Maintenant, vous voulez le répéter pour obtenir la distribution, par exemple pour obtenir un écart-type - mais vous avez découvert que quelqu'un a volé la boîte.
Ce qui peut être fait maintenant, c'est d'utiliser ce que vous avez - cette seule série de mesures. L'idée est de mettre les boules dans la nouvelle boîte et de simuler l'expérience originale en dessinant le même nombre de boules avec remplacement - les deux pour avoir la même taille d'échantillon et une certaine variabilité. Maintenant, cela peut être reproduit plusieurs fois pour obtenir une série de moyennes qui peuvent finalement être utilisées pour approximer la distribution moyenne.


la source
3

C'est l'essence du bootstrapping: prendre différents échantillons de vos données, obtenir une statistique pour chaque échantillon (par exemple, la moyenne, la médiane, la corrélation, le coefficient de régression, etc.), et utiliser la variabilité de la statistique entre les échantillons pour indiquer quelque chose à propos de l'erreur standard et les intervalles de confiance pour la statistique. - Bootstrapping et le package de démarrage dans R

Jeromy Anglim
la source