J'ai récemment utilisé l'amorçage pour estimer les intervalles de confiance d'un projet. Quelqu'un qui ne connaît pas grand chose aux statistiques m'a récemment demandé d'expliquer pourquoi l' amorçage fonctionne, c.-à-d. Pourquoi le rééchantillonnage répétitif du même échantillon donne-t-il de bons résultats. J'ai réalisé que bien que j'avais passé beaucoup de temps à comprendre comment l'utiliser, je ne comprenais pas vraiment pourquoi le bootstrap fonctionne.
Plus précisément: si nous rééchantillons notre échantillon, comment pouvons-nous apprendre quelque chose sur la population plutôt que sur l’échantillon? Il semble y avoir là un saut quelque peu contre-intuitif.
J'ai trouvé quelques réponses à cette question que je comprends à moitié. En particulier celui-ci . Je suis un "consommateur" de statistiques, pas un statisticien, et je travaille avec des personnes qui en savent beaucoup moins que moi sur les statistiques. Alors, quelqu'un peut-il expliquer, avec un minimum de références à des théorèmes, etc., le raisonnement de base derrière le bootstrap? C'est-à-dire que si vous deviez l'expliquer à votre voisin, que diriez-vous?
la source
Réponses:
Fwiw la version moyenne que je donne habituellement va comme ceci:
Vous voulez poser une question à une population mais vous ne pouvez pas. Donc, vous prenez un échantillon et posez la question à la place. Maintenant, votre confiance que l'échantillon de réponse est proche de celui de la population dépend évidemment de la structure de la population. Vous pouvez en apprendre davantage sur ce sujet en prenant des échantillons de la population à plusieurs reprises, posez-leur la question et voyez à quel point les réponses de l'échantillon avaient tendance à être variables. Étant donné que ce n'est pas possible, vous pouvez soit formuler des hypothèses sur la forme de la population, soit utiliser les informations de l'échantillon que vous devez réellement connaître.
Imaginez que vous décidiez de faire des suppositions, par exemple qu'il s'agisse de Normal, de Bernoulli ou d'une autre fiction commode. En suivant la stratégie précédente, vous pourriez à nouveau savoir à quel point la réponse à votre question lorsqu'on vous le demande d'un échantillon peut varier en fonction de l'échantillon que vous avez obtenu en générant de manière répétée des échantillons de la même taille que celui que vous avez et en leur demandant la même chose. question. Ce serait simple dans la mesure où vous avez choisi des hypothèses pratiques. (En effet, des hypothèses particulièrement pratiques et des calculs non triviaux peuvent vous permettre de contourner complètement la partie échantillonnage, mais nous l'ignorerons délibérément ici.)
Cela semble être une bonne idée à condition que vous soyez heureux de faire les hypothèses. Imagine que tu ne l'es pas. Une alternative consiste à prendre l'échantillon que vous avez et à en échantillonner. Vous pouvez le faire parce que l’échantillon que vous avez est également une population, mais très petite; cela ressemble à l'histogramme de vos données. L'échantillonnage «avec remplacement» n'est qu'un moyen pratique de traiter l'échantillon comme s'il s'agissait d'une population et d'en prélever des échantillons d'une manière qui reflète sa forme.
C’est une chose raisonnable à faire car non seulement l’échantillon que vous possédez est-il la seule information dont vous disposez sur la population, mais aussi parce que la plupart des échantillons, s'ils sont choisis au hasard, ressemblent beaucoup à la la population d'où ils venaient. Par conséquent, il est probable que le vôtre aussi.
Pour l'intuition, il est important de réfléchir à la manière dont vous pouvez en apprendre davantage sur la variabilité en agrégeant les informations échantillonnées générées de différentes manières et sur différentes hypothèses. Ignorer complètement la possibilité de solutions mathématiques sous forme fermée est important pour que cela soit clair.
la source
+1 à @ConjugatePrior, je veux simplement faire ressortir un point qui est implicite dans sa réponse. La question demande: "si nous rééchantillons notre échantillon, comment pouvons-nous apprendre quelque chose sur la population plutôt que sur l'échantillon?" Le rééchantillonnage n'est pas effectué pour fournir une estimation de la répartition de la population - notre échantillon est lui-même un modèle de la population. Un rééchantillonnage est plutôt effectué pour fournir une estimation de la distribution d'échantillonnage de la statistique d'échantillon en question.
la source
Ceci est probablement une explication plus technique destinée aux personnes qui comprennent certaines statistiques et mathématiques (calcul, au moins). Voici une diapositive d'un cours sur les bases de sondage que j'ai enseigné il y a quelque temps:
Quelques explications sont nécessaires, bien sûr. est la procédure permettant d’obtenir la statistique à partir des données existantes (ou, pour être techniquement précis, d’une fonction fonctionnelle de la fonction de distribution aux nombres réels; par exemple, la moyenne est , où pour la fonction de distribution d'échantillon , le est compris comme une masse ponctuelle à un point d'échantillon). Dans la population, notée , l'application de donne le paramètre d'intérêt . Maintenant, nous avons pris un échantillon (la première flèche en haut) et avons la fonction de distribution empirique - nous lui appliquons pour obtenir l'estimationT E[X]=∫xdF Fn() dF F() T θ Fn() T θ^n . À quelle distance est-il de , nous nous demandons? Quelle est la distribution que la quantité aléatoire peut avoir autour de ? C'est le point d'interrogation dans le coin inférieur gauche du diagramme, et c'est la question à laquelle le bootstrap tente de répondre. Pour réaffirmer le point de vue de gung, ce n'est pas la question de la population, mais celle d'une statistique particulière et de sa distribution.θ θ^n θ
Si nous pouvions répéter notre procédure d'échantillonnage, nous pourrions obtenir cette distribution et en apprendre davantage. Eh bien, cela dépasse généralement nos capacités. Toutefois, si
nous pouvons espérer que la procédure de bootstrap fonctionnera. A savoir, nous prétendons que notre distribution est plutôt que , et que nous pouvons amusons tous les échantillons possibles - et il y aura tels échantillons, ce qui est pratique pour . Je répète: le bootstrap crée la distribution d'échantillonnage de autour du paramètre "true" et nous espérons qu'avec les deux conditions ci-dessus, cette distribution d'échantillonnage donne des informations sur la distribution d'échantillonnage. de autour de :Fn() F() nn n≤5 θ^∗n θ^n θ^n θ
Maintenant, au lieu de suivre les flèches dans un sens et de perdre certaines informations / précision le long de ces flèches, nous pouvons revenir en arrière et dire quelque chose sur la variabilité de autour de .θ^∗n θ^n
Les conditions ci-dessus sont énoncées de manière extrêmement technique dans le livre de Hall (1991) . La compréhension du calcul que j’ai dit peut être nécessaire avant de pouvoir regarder cette diapositive est la deuxième hypothèse concernant la régularité: dans un langage plus formel, le fonctionnel doit posséder un dérivé faible. La première condition est, bien sûr, une déclaration asymptotique: plus votre échantillon est grand, plus devrait se rapprocher de ; et les distances de à devraient être du même ordre de grandeur que celles de à . Ces conditions peuvent casser, et elles cassentT Fn F θ^∗n θ^n θ^n θ dans un certain nombre de situations pratiques avec des statistiques assez étranges et / ou des systèmes d'échantillonnage qui ne produisent pas de distributions empiriques qui sont assez proches .F
Maintenant, d'où viennent ces 1000 échantillons, ou quel que soit le nombre magique,? Cela vient de notre incapacité à tirer tous les échantillons, nous en prenons donc un sous-ensemble aléatoire. La flèche la plus à droite "simuler" indique une autre approximation que nous sommes en train de faire pour obtenir la distribution de autour de , et c’est-à-dire que notre distribution simulée de Monte Carlo de est une assez bonne approximation de la distribution bootstrap complète de autour de .θ n θ θ ( * r ) n θ * n θ nnn θ^n θ θ^(∗r)n θ^∗n θ^n
la source
Je réponds à cette question parce que je conviens que c'est une chose difficile à faire et qu'il existe de nombreuses idées fausses. Efron et Diaconis ont tenté de le faire dans leur article de Scientific American de 1983 et, à mon avis, ils ont échoué. Il existe actuellement plusieurs livres consacrés au bootstrap qui font du bon travail. Efron et Tibshirani ont fait un excellent travail dans leur article paru dans Statistical Science en 1986. J'ai essayé particulièrement de rendre le bootstrap accessible aux praticiens dans mon livre de méthodes bootstrap et mon introduction à bootstrap avec des applications dans le livre de R. Hall est géniale mais très avancée et théorique. . Tim Hesterberg a écrit un excellent chapitre supplémentaire à l'un des livres d'introduction aux statistiques de David Moore. Feu Clifford Lunneborg avait un bon livre. Chihara et Hesterberg ont récemment publié un livre de statistiques mathématiques de niveau intermédiaire qui traite du bootstrap et d'autres méthodes de rééchantillonnage. Même des livres avancés tels que ceux de Lahiri ou de Shao et Tu donnent de bonnes explications conceptuelles. Manly réussit bien avec son livre qui traite des permutations et du bootstrap. Il est important de garder à l'esprit que le bootstrap dépend du principe de bootstrap "L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même façon que le comportement de l'échantillon d'origine sur une population. Il existe des exemples où ce principe échoue. Il est important de savoir que le bootstrap n’est pas la réponse à tous les problèmes statistiques. s donner de bonnes explications conceptuelles. Manly réussit bien avec son livre qui traite des permutations et du bootstrap. Il est important de garder à l'esprit que le bootstrap dépend du principe de bootstrap "L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même façon que le comportement de l'échantillon d'origine sur une population. Il existe des exemples où ce principe échoue. Il est important de savoir que le bootstrap n’est pas la réponse à tous les problèmes statistiques. s donner de bonnes explications conceptuelles. Manly réussit bien avec son livre qui traite des permutations et du bootstrap. Il est important de garder à l'esprit que le bootstrap dépend du principe de bootstrap "L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même façon que le comportement de l'échantillon d'origine sur une population. Il existe des exemples où ce principe échoue. Il est important de savoir que le bootstrap n’est pas la réponse à tous les problèmes statistiques. L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même manière que celui-ci sur une population. Il y a des exemples où ce principe échoue. Il est important de savoir que le bootstrap n'est pas la solution à tous les problèmes statistiques. L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même manière que celui-ci sur une population. Il y a des exemples où ce principe échoue. Il est important de savoir que le bootstrap n'est pas la solution à tous les problèmes statistiques.
Voici des liens amazoniens vers tous les livres que j'ai mentionnés et plus encore.
Statistiques mathématiques avec rééchantillonnage et R
Méthodes Bootstrap et leur application
Méthodes Bootstrap: Un guide pour les praticiens et les chercheurs
Une introduction aux méthodes d'amorçage avec des applications à R
Méthodes de rééchantillonnage pour les données dépendantes
Méthodes de Randomisation, Bootstrap et Monte Carlo en Biologie
Une introduction au bootstrap
Manuel de pratique des statistiques sur les entreprises Chapitre 18: Méthodes bootstrap et tests de permutation
Analyse de données par rééchantillonnage: concepts et applications
Le jackknife, le bootstrap et autres plans de rééchantillonnage
Le Jackknife et le Bootstrap
Tests de permutation, paramétriques et bootstrap des hypothèses
L'extension Bootstrap et Edgeworth
la source
Grâce à l'amorçage, vous prenez simplement des échantillons à maintes reprises dans le même groupe de données (vos données d'échantillon) pour estimer la précision de vos estimations concernant l'ensemble de la population (ce qui existe réellement dans le monde réel).
Si vous deviez prélever un échantillon et faire des estimations sur la population réelle, vous pourriez ne pas être en mesure d'estimer la précision de vos estimations. Nous n'avons qu'une estimation et nous n'avons pas identifié comment cette estimation varie avec les différents échantillons que nous avons pu rencontrer.
Avec amorçage, nous utilisons cet échantillon principal pour générer plusieurs échantillons. Par exemple, si nous mesurions les bénéfices chaque jour pendant 1000 jours, nous pourrions prélever des échantillons au hasard dans cet ensemble. Nous pouvons enregistrer les bénéfices d'un jour au hasard, les enregistrer, les obtenir d'un autre jour (le même jour qu'avant - échantillonnage avec remplacement), les enregistrer, etc., jusqu'à ce que nous obtenions un "nouveau" échantillon de 1000 jours (à partir de l'échantillon d'origine).
Ce "nouvel" échantillon n'est pas identique à l'échantillon d'origine - en fait, nous pourrions générer plusieurs "nouveaux" échantillons comme ci-dessus. Lorsque nous examinons les variations des moyennes et des estimations, nous pouvons avoir une idée de la précision des estimations initiales.
Modifier - en réponse au commentaire
Les échantillons "plus récents" ne sont pas identiques au premier et les nouvelles estimations basées sur ceux-ci varieront. Ceci simule des échantillons répétés de la population. Les variations dans les estimations des échantillons "plus récents" générées par le bootstrap permettront de mieux comprendre la variation des estimations de l'échantillon en fonction des échantillons de la population. C’est ainsi que nous pouvons essayer de mesurer la précision des estimations initiales.
Bien sûr, au lieu de démarrer, vous pourriez prendre plusieurs nouveaux échantillons parmi la population, mais cela pourrait être impossible.
la source
Je me rends compte que c’est une vieille question avec une réponse acceptée, mais j’aimerais donner mon point de vue sur la méthode du bootstrap. Je ne suis en aucun cas un expert (plus un utilisateur de statistiques, comme l'OP) et j'apprécie toutes corrections ou commentaires.
J'aime voir bootstrap comme une généralisation de la méthode jackknife. Supposons donc que vous avez un échantillon S de taille 100 et estimez un paramètre en utilisant une statistique T (S). Vous souhaitez maintenant connaître un intervalle de confiance pour cette estimation ponctuelle. Si vous n'avez pas de modèle ni d'expression analytique pour l'erreur type, vous pouvez supprimer un élément de l'échantillon et créer un sous-échantillon avec l'élément i supprimé. Vous pouvez maintenant calculer et obtenir 100 nouvelles estimations du paramètre à partir duquel vous pouvez calculer, par exemple, l'erreur type et créer un intervalle de confiance. C'est la méthode jackknife JK-1.Si T(Si)
Vous pouvez également considérer tous les sous-ensembles de taille 98 et obtenir JK-2 (2 éléments supprimés) ou JK-3, etc.
Maintenant, bootstrap est juste une version aléatoire de ceci. En procédant à un rééchantillonnage via une sélection avec remplacements, vous "supprimeriez" un nombre aléatoire d'éléments (éventuellement aucun) et les "remplaceriez" par un (ou plusieurs) réplicats.
En remplaçant par réplique, le jeu de données rééchantillonné a toujours la même taille. Pour le jackknife, vous pouvez vous demander quel est l’effet du jackknifing sur des échantillons de taille 99 au lieu de 100, mais si la taille de l’échantillon est "suffisamment grande", cela n’est probablement pas un problème.
Dans jackknife, vous ne mélangez jamais les opérations delete-1 et delete-2, etc., pour vous assurer que les estimations Jacked proviennent d'échantillons de même taille.
Vous pouvez également envisager de diviser l’échantillon de taille 100 en 10 échantillons de taille 10. Par exemple, certains aspects théoriques seraient plus propres (sous-ensembles indépendants), mais réduiraient la taille de l’échantillon (de 100 à 10) au point d’être peu pratiques (dans la plupart des cas). cas).
Vous pouvez également envisager de superposer partiellement des sous-ensembles de certaines tailles. Tout cela est géré de manière automatique, uniforme et aléatoire par la méthode du bootstrap.
En outre, la méthode bootstrap vous donne une estimation de la distribution d'échantillonnage de votre statistique à partir de la distribution empirique de l'échantillon d'origine, afin que vous puissiez analyser d'autres propriétés de la statistique en plus de l'erreur type.
la source
En paraphrasant Fox , je commencerais par dire que le processus de ré-échantillonnage répété de votre échantillon observé s’est révélé imiter le processus d’échantillonnage initial de la population entière.
la source
Un échantillon fini de la population se rapproche de la distribution de la même manière qu'un histogramme. En ré-échantillonnant, chaque nombre de cases est modifié et vous obtenez une nouvelle approximation. Les valeurs de grand nombre fluctuent moins que les petites valeurs à la fois dans la population d'origine et dans l'ensemble échantillonné. Puisque vous expliquez cela à un non-initié, vous pouvez affirmer que pour les grands nombres de bacs, il s’agit approximativement de la racine carrée du nombre de bacs dans les deux cas.
Si je découvre rousses et autres sur un échantillon de , le ré-échantillonnage permettrait d'estimer la fluctuation des rousses à , ce qui revient à supposer que la population d'origine était réellement distribué . Donc, si nous approximons la probabilité réelle comme celle échantillonnée, nous pouvons obtenir une estimation de l'erreur d'échantillonnage "autour" de cette valeur.20 80 100 1:4(0.2×0.8)×100−−−−−−−−−−−−−√ 1:4
Je pense qu'il est important de souligner que le bootstrap ne dévoile pas de "nouvelles" données, c'est simplement un moyen pratique et non paramétrique de déterminer approximativement les fluctuations d'échantillon à échantillonner si la probabilité réelle est donnée par celle échantillonnée.
la source
Notons que dans les statistiques inférentielles classiques, l'entité théorique qui relie un échantillon à la population en tant que bon estimateur de la population est la distribution d'échantillonnage (tous les échantillons possibles pouvant être tirés de la population). La méthode bootstrap crée une sorte de distribution d'échantillonnage (une distribution basée sur plusieurs échantillons). Bien sûr, c’est une méthode du maximum de vraisemblance, mais la logique de base n’est pas très différente de celle de la théorie des probabilités traditionnelle à l’origine des statistiques classiques fondées sur la distribution normale.
la source
Mon point est très minuscule.
Bootstrap fonctionne car il exploite de manière intensive, par calcul, les bases de notre programme de recherche.
Pour être plus précis, en statistique ou en biologie, ou dans la plupart des sciences non théoriques, nous étudions des individus, collectant ainsi des échantillons.
Pourtant, à partir de tels échantillons, nous voulons faire des déductions sur d’autres personnes, qu’elles nous présentent ultérieurement ou dans différents échantillons.
Avec bootstrap, en fondant explicitement notre modélisation sur les composants individuels de notre échantillon, nous pouvons mieux (avec moins d'hypothèses en général) déduire et prédire pour d'autres individus.
la source
Quand j'explique aux débutants, je pense qu'il est utile de prendre un exemple spécifique ...
Imaginez que vous avez un échantillon aléatoire de 9 mesures d'une population. La moyenne de l'échantillon est de 60. Peut-on être sûr que la moyenne de l'ensemble de la population est également de 60? Évidemment, ce n'est pas parce que les petits échantillons vont varier, de sorte que l'estimation de 60 risque d'être inexacte. Pour savoir combien d'échantillons comme celui-ci varieront, nous pouvons effectuer quelques expériences - en utilisant une méthode appelée bootstrapping.
Le premier nombre dans l'échantillon est 74 et le second est 65, imaginons donc une grande population "fictive" comprenant un neuvième sur 74, un neuvième sur 65, et ainsi de suite. Le moyen le plus simple de prendre un échantillon aléatoire de cette population est de prendre un nombre au hasard dans l’échantillon de neuf, puis de le remplacer afin que vous disposiez à nouveau de l’échantillon initial de neuf et que vous en choisissiez un autre au hasard, et ainsi de suite jusqu’à ce que vous obteniez un échantillon. "rééchantillonnage" de 9. Lorsque j'ai fait cela, 74 n'apparaissent pas du tout, mais certains des autres numéros sont apparus deux fois et la moyenne était de 54,4. (Ceci est configuré sur la feuille de calcul à l' adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx - cliquez sur l'onglet Bootstrap en bas de l'écran.)
Lorsque je prenais 1000 échantillons de cette manière, leurs moyennes variaient de 44 à 80, avec 95% entre 48 et 72. Ce qui suggère qu’il existe une erreur pouvant aller de 16 à 20 unités (44 correspond à 16 fois moins que la moyenne de population supposée de 60, 80 est 20 unités ci-dessus) en utilisant des échantillons de taille 9 pour estimer la moyenne de la population. et que nous pouvons être sûrs à 95% que l’erreur sera de 12 ou moins. Nous pouvons donc être sûrs à 95% que la moyenne de la population se situera entre 48 et 72 ans.
Un certain nombre d’hypothèses ont été passées au crible, la plus évidente étant l’hypothèse que l’échantillon donne une image utile de la population - l’expérience montre que cela fonctionne généralement bien si l’échantillon est assez grand (9 est un peu petit mais facilite la voir ce qui se passe). La feuille de calcul disponible à l' adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx vous permet d'afficher des échantillons individuels, des histogrammes de 1 000 échantillons, de tester des échantillons plus volumineux, etc. Cet article contient une explication plus détaillée. à l' adresse https://arxiv.org/abs/1803.06214 .
la source