J'ai étudié le package de démarrage dans R et bien que j'aie trouvé un certain nombre de bonnes amorces sur la façon de l'utiliser, je n'ai encore rien trouvé qui décrive exactement ce qui se passe "dans les coulisses". Par exemple, dans cet exemple , le guide montre comment utiliser les coefficients de régression standard comme point de départ pour une régression de bootstrap mais n'explique pas ce que la procédure de bootstrap fait réellement pour dériver les coefficients de régression de bootstrap. Il semble qu'il y ait une sorte de processus itératif qui se produit, mais je n'arrive pas à comprendre exactement ce qui se passe.
22
Réponses:
Il existe plusieurs "saveurs" ou formes de bootstrap (par exemple non paramétrique, paramétrique, rééchantillonnage résiduel et bien d'autres). Le bootstrap dans l'exemple est appelé bootstrap non paramétrique , ou rééchantillonnage de cas (voir ici , ici , ici et ici pour les applications en régression). L'idée de base est que vous traitez votre échantillon comme une population et que vous en extrayez à plusieurs reprises de nouveaux échantillons avec remplacement . Toutes les observations originales ont une probabilité égale d'être attirées dans le nouvel échantillon. Ensuite, vous calculez et stockez les statistiques d'intérêt, cela peut être la moyenne, la médiane ou les coefficients de régression en utilisant l'échantillon nouvellement tiré. Ceci est répété fois. À chaque itération, certaines observations de votre échantillon d'origine sont tirées plusieurs fois tandis que certaines observations peuvent ne pas l'être du tout. Après itérations, vous avez estimations bootstrap stockées de la ou des statistiques d'intérêt (par exemple, si et que la statistique d'intérêt est la moyenne, vous avez 1000 estimations bootstrapées de la moyenne). Enfin, des statistiques sommaires telles que la moyenne, la médiane et l'écart type des estimations bootstrap sont calculées.n n n n = 1000 n
Le bootstrap est souvent utilisé pour:
Il existe plusieurs méthodes pour calculer les intervalles de confiance sur la base des échantillons bootstrap ( ce document fournit des explications et des conseils). Une méthode très simple pour calculer un intervalle de confiance à 95% consiste simplement à calculer les 2,5e et 97,5e centiles empiriques des échantillons de bootstrap (cet intervalle est appelé intervalle de percentile de bootstrap; voir le code ci-dessous). La méthode de l'intervalle centile simple est rarement utilisée dans la pratique car il existe de meilleures méthodes, telles que le bootstrap à correction de biais et accéléré (BCa). Les intervalles BCa s'ajustent à la fois pour le biais et l'asymétrie dans la distribution bootstrap.
Reprenons l'exemple du site Web, mais en utilisant notre propre boucle incorporant les idées que j'ai décrites ci-dessus (dessin à plusieurs reprises avec remplacement):
Et voici notre tableau récapitulatif:
Quelques explications
boot
boot
appels "erreur standard" est l'écart type des estimations bootstrapéesComparez-le avec la sortie de
boot
:Comparez les colonnes "biais" et "erreur standard" avec la colonne "sd" de notre propre tableau récapitulatif. Nos intervalles de confiance à 95% sont très similaires aux intervalles de confiance calculés en
boot.ci
utilisant la méthode du centile (pas tous cependant: regardez la limite inférieure du paramètre avec l'indice 9).la source
Vous devez vous concentrer sur la fonction qui est passée en
boot
tant que paramètre "statistique" et remarquer comment elle est construite.L'argument "data" va recevoir une trame de données entière, mais l'argument "i" va recevoir un échantillon d'indices de lignes générés par le "boot" et pris dans 1: NROW (data). Comme vous pouvez le voir à partir de ce code, "i" est ensuite utilisé pour créer un néo-échantillon qui est passé à
zeroinl
, puis seules les parties sélectionnées de ses résultats sont renvoyées.Imaginons que "i" soit {1,2,3,3,3,6,7,7,10}. La fonction "[" renverra uniquement ces lignes avec 3 copies de la ligne 3 et 2 copies de la ligne 7. Ce serait la base d'un
zeroinl()
calcul unique , puis les coefficients seront retournés àboot
la suite de cette réplique du processus. Le nombre de ces répliques est contrôlé par le paramètre "R".Étant donné que seuls les coefficients de régression sont renvoyés
statistic
dans ce cas, laboot
fonction renverra ces coefficients accumulés en tant que valeur de "t". D'autres comparaisons peuvent être effectuées par d'autres fonctions du package de démarrage.la source