Expliquer aux laïcs pourquoi l'amorçage fonctionne

326

J'ai récemment utilisé l'amorçage pour estimer les intervalles de confiance d'un projet. Quelqu'un qui ne connaît pas grand chose aux statistiques m'a récemment demandé d'expliquer pourquoi l' amorçage fonctionne, c.-à-d. Pourquoi le rééchantillonnage répétitif du même échantillon donne-t-il de bons résultats. J'ai réalisé que bien que j'avais passé beaucoup de temps à comprendre comment l'utiliser, je ne comprenais pas vraiment pourquoi le bootstrap fonctionne.

Plus précisément: si nous rééchantillons notre échantillon, comment pouvons-nous apprendre quelque chose sur la population plutôt que sur l’échantillon? Il semble y avoir là un saut quelque peu contre-intuitif.

J'ai trouvé quelques réponses à cette question que je comprends à moitié. En particulier celui-ci . Je suis un "consommateur" de statistiques, pas un statisticien, et je travaille avec des personnes qui en savent beaucoup moins que moi sur les statistiques. Alors, quelqu'un peut-il expliquer, avec un minimum de références à des théorèmes, etc., le raisonnement de base derrière le bootstrap? C'est-à-dire que si vous deviez l'expliquer à votre voisin, que diriez-vous?

Alan H.
la source
13
(+1) Vous pouvez mentionner brièvement les questions que vous avez examinées, mais cela ne vous satisfait pas vraiment. Il y a beaucoup de questions sur le bootstrap ici. :)
cardinal
@ cardinal Merci, j'ai mis à jour le message d'origine. J'espère que c'est plus clair. :)
Alan H.
5
Une chose à noter - l'amorçage ne fonctionne pas facilement pour les données structurées hiérarchiquement - telles que les modèles à plusieurs niveaux et les conceptions d'échantillonnage à plusieurs étapes. Très déroutant de savoir "quel bootstrap" vous devriez utiliser.
probabilityislogic
2
Fondamentalement, bootstrap fonctionne car il s'agit d'un maximum de probabilité non paramétrique. Donc, quand il y a des problèmes avec la probabilité maximale, vous pouvez vous attendre à des problèmes avec le bootstrap.
kjetil b halvorsen
3
Jake VanderPlas a eu une excellente conférence à la PyCon 16 sur le bootstrap et quelques autres techniques associées. Voir les diapositives à partir de la diapositive 71 et l'enregistrement vidéo .
jeudi

Réponses:

198

Fwiw la version moyenne que je donne habituellement va comme ceci:

Vous voulez poser une question à une population mais vous ne pouvez pas. Donc, vous prenez un échantillon et posez la question à la place. Maintenant, votre confiance que l'échantillon de réponse est proche de celui de la population dépend évidemment de la structure de la population. Vous pouvez en apprendre davantage sur ce sujet en prenant des échantillons de la population à plusieurs reprises, posez-leur la question et voyez à quel point les réponses de l'échantillon avaient tendance à être variables. Étant donné que ce n'est pas possible, vous pouvez soit formuler des hypothèses sur la forme de la population, soit utiliser les informations de l'échantillon que vous devez réellement connaître.

Imaginez que vous décidiez de faire des suppositions, par exemple qu'il s'agisse de Normal, de Bernoulli ou d'une autre fiction commode. En suivant la stratégie précédente, vous pourriez à nouveau savoir à quel point la réponse à votre question lorsqu'on vous le demande d'un échantillon peut varier en fonction de l'échantillon que vous avez obtenu en générant de manière répétée des échantillons de la même taille que celui que vous avez et en leur demandant la même chose. question. Ce serait simple dans la mesure où vous avez choisi des hypothèses pratiques. (En effet, des hypothèses particulièrement pratiques et des calculs non triviaux peuvent vous permettre de contourner complètement la partie échantillonnage, mais nous l'ignorerons délibérément ici.)

Cela semble être une bonne idée à condition que vous soyez heureux de faire les hypothèses. Imagine que tu ne l'es pas. Une alternative consiste à prendre l'échantillon que vous avez et à en échantillonner. Vous pouvez le faire parce que l’échantillon que vous avez est également une population, mais très petite; cela ressemble à l'histogramme de vos données. L'échantillonnage «avec remplacement» n'est qu'un moyen pratique de traiter l'échantillon comme s'il s'agissait d'une population et d'en prélever des échantillons d'une manière qui reflète sa forme.

C’est une chose raisonnable à faire car non seulement l’échantillon que vous possédez est-il la seule information dont vous disposez sur la population, mais aussi parce que la plupart des échantillons, s'ils sont choisis au hasard, ressemblent beaucoup à la la population d'où ils venaient. Par conséquent, il est probable que le vôtre aussi.

Pour l'intuition, il est important de réfléchir à la manière dont vous pouvez en apprendre davantage sur la variabilité en agrégeant les informations échantillonnées générées de différentes manières et sur différentes hypothèses. Ignorer complètement la possibilité de solutions mathématiques sous forme fermée est important pour que cela soit clair.

conjuguéprior
la source
5
Bonne réponse. J'aime particulièrement l'avant dernier paragraphe.
Peter Flom
19
(+1) C'est une bonne réponse. Je pense cependant qu’il pourrait y avoir un moyen de faire ressortir un point très important. Dans le déroulement normal du bootstrap, deux effets se produisent. Premièrement, nous prétendons que l’échantillon que nous avons obtenu est un indicateur indirect de notre population. C'est théoriquement une chose raisonnable à faire, à condition que la taille de notre échantillon soit raisonnablement grande. Cependant, nous avons généralement du mal à calculer les quantités réelles de cette distribution fictive. Nous devons donc les estimer et c’est pourquoi nous tirons beaucoup d’échantillons bootstrap. Si nous pouvions ... / ...
cardinal
11
... / ... calculer les quantités d'intérêt directement pour notre distribution prétendue, nous préférerions le faire. Et ce serait le vrai bootstrap. Mais en général nous ne pouvons pas, nous sommes donc obligés de ré-échantillonner.
cardinal
8
@ naught101: "Reasonably large" peut être assez bien quantifié par l'inégalité DKW (si vous le souhaitez, vous pouvez consulter ma réponse dans le lien de la question du PO) et quant aux lots , cela dépend de la statistique d'intérêt de l'échantillon, mais si nous avons échantillons bootstrap, alors avec le simple Monte Carlo, nous savons que l’erreur type est d’ordre approximativement . O ( B - une / 2 )BO(B1/2)
cardinal
4
@ cardinal: beau commentaire. Beaucoup de gens pensent que le bootstrap et le ré-échantillonnage sont la même chose, alors que ce dernier est un outil utilisé pour le premier. Une idée fausse similaire est que de nombreux utilisateurs de statistiques ont tendance à confondre MCMC et l'analyse bayésienne.
MånsT
122

+1 à @ConjugatePrior, je veux simplement faire ressortir un point qui est implicite dans sa réponse. La question demande: "si nous rééchantillons notre échantillon, comment pouvons-nous apprendre quelque chose sur la population plutôt que sur l'échantillon?" Le rééchantillonnage n'est pas effectué pour fournir une estimation de la répartition de la population - notre échantillon est lui-même un modèle de la population. Un rééchantillonnage est plutôt effectué pour fournir une estimation de la distribution d'échantillonnage de la statistique d'échantillon en question.

gung
la source
10
(+1) Ceci est proche de ce que j'essayais de dire dans la réponse à la réponse de ConjugatePrior, bien que vous l'ayez dit de manière plus concise et claire. Dans certains cas particuliers, nous pouvons calculer la distribution d'échantillonnage de la statistique de test exactement sous la distribution empirique obtenue à partir de l'échantillon . Mais, en général, nous ne pouvons pas et nous sommes donc forcés de faire de la simulation. :)
cardinal
7
Je vois donc si je vous comprends bien, alors cette technique suppose que l’échantillon est un modèle adéquat de la population, et donc le ré-échantillonnage sur cet échantillon sur une échelle suffisamment grande révélera quelque chose sur la population, mais seulement dans la mesure où la l'échantillon original est un bon. Maintenant que je le dis de cette façon, cela semble presque évident ...
Alan H.
4
@AlanH., Je veux juste changer "... révélera quelque chose sur la population " en "... révélera quelque chose sur la distribution d'échantillonnage " (de la statistique en question, par exemple la moyenne). Mais oui, vous l'avez là
gung
Vous avez tous raison, bien sûr. Personnellement, et uniquement pour des raisons pédagogiques, je garde ce point pour ma "version plus longue", parce que, dans mon public particulier, ce point a tendance à déséquilibrer un peu l'équilibre de leurs intuitions jeunes et encore instables si elles sont appliquées trop tôt.
conjugateprior
3
@ErosRam, l'initialisation consiste à déterminer la distribution d'échantillonnage de quelque chose. Vous pouvez le faire pour un exemple de statistique (56e centile, par exemple) ou un test statistique (t), etc. Dans mon binomial ex, la distribution d'échantillonnage sera évidemment égale à 0 tête - 25%; 1 tête - 50%; 2 têtes - 25%; cela est clair sans rééchantillonnage. Cardinal a un commentaire quelque part qui explique cela (la plupart des meilleures réponses sur le site sont ses commentaires), mais il est difficile de trouver parce que c'est un commentaire.
gung
43

Ceci est probablement une explication plus technique destinée aux personnes qui comprennent certaines statistiques et mathématiques (calcul, au moins). Voici une diapositive d'un cours sur les bases de sondage que j'ai enseigné il y a quelque temps:

principe du bootstrap

Quelques explications sont nécessaires, bien sûr. est la procédure permettant d’obtenir la statistique à partir des données existantes (ou, pour être techniquement précis, d’une fonction fonctionnelle de la fonction de distribution aux nombres réels; par exemple, la moyenne est , où pour la fonction de distribution d'échantillon , le est compris comme une masse ponctuelle à un point d'échantillon). Dans la population, notée , l'application de donne le paramètre d'intérêt . Maintenant, nous avons pris un échantillon (la première flèche en haut) et avons la fonction de distribution empirique - nous lui appliquons pour obtenir l'estimationTE[X]=xdFFn()dFF()TθFn()Tθ^n . À quelle distance est-il de , nous nous demandons? Quelle est la distribution que la quantité aléatoire peut avoir autour de ? C'est le point d'interrogation dans le coin inférieur gauche du diagramme, et c'est la question à laquelle le bootstrap tente de répondre. Pour réaffirmer le point de vue de gung, ce n'est pas la question de la population, mais celle d'une statistique particulière et de sa distribution.θθ^nθ

Si nous pouvions répéter notre procédure d'échantillonnage, nous pourrions obtenir cette distribution et en apprendre davantage. Eh bien, cela dépasse généralement nos capacités. Toutefois, si

  1. Fn est assez proche de , dans un sens approprié, etF
  2. la cartographie est assez lisse, c'est-à-dire que si nous prenons de petites déviations par rapport à , les résultats seront cartographiés à des nombres proches de ,TF()θ

nous pouvons espérer que la procédure de bootstrap fonctionnera. A savoir, nous prétendons que notre distribution est plutôt que , et que nous pouvons amusons tous les échantillons possibles - et il y aura tels échantillons, ce qui est pratique pour . Je répète: le bootstrap crée la distribution d'échantillonnage de autour du paramètre "true" et nous espérons qu'avec les deux conditions ci-dessus, cette distribution d'échantillonnage donne des informations sur la distribution d'échantillonnage. de autour de :Fn()F()nnn5θ^nθ^nθ^nθ

θ^n to θ^n is like θ^n to θ

Maintenant, au lieu de suivre les flèches dans un sens et de perdre certaines informations / précision le long de ces flèches, nous pouvons revenir en arrière et dire quelque chose sur la variabilité de autour de .θ^nθ^n

Les conditions ci-dessus sont énoncées de manière extrêmement technique dans le livre de Hall (1991) . La compréhension du calcul que j’ai dit peut être nécessaire avant de pouvoir regarder cette diapositive est la deuxième hypothèse concernant la régularité: dans un langage plus formel, le fonctionnel doit posséder un dérivé faible. La première condition est, bien sûr, une déclaration asymptotique: plus votre échantillon est grand, plus devrait se rapprocher de ; et les distances de à devraient être du même ordre de grandeur que celles de à . Ces conditions peuvent casser, et elles cassentTFnFθ^nθ^nθ^nθdans un certain nombre de situations pratiques avec des statistiques assez étranges et / ou des systèmes d'échantillonnage qui ne produisent pas de distributions empiriques qui sont assez proches .F

Maintenant, d'où viennent ces 1000 échantillons, ou quel que soit le nombre magique,? Cela vient de notre incapacité à tirer tous les échantillons, nous en prenons donc un sous-ensemble aléatoire. La flèche la plus à droite "simuler" indique une autre approximation que nous sommes en train de faire pour obtenir la distribution de autour de , et c’est-à-dire que notre distribution simulée de Monte Carlo de est une assez bonne approximation de la distribution bootstrap complète de autour de .θ n θ θ ( * r ) n θ * n θ nnnθ^nθθ^n(r)θ^nθ^n

StasK
la source
7
Cette réponse passe complètement à côté du but d’essayer d’être accessible à un public profane.
Tripartio
20

Je réponds à cette question parce que je conviens que c'est une chose difficile à faire et qu'il existe de nombreuses idées fausses. Efron et Diaconis ont tenté de le faire dans leur article de Scientific American de 1983 et, à mon avis, ils ont échoué. Il existe actuellement plusieurs livres consacrés au bootstrap qui font du bon travail. Efron et Tibshirani ont fait un excellent travail dans leur article paru dans Statistical Science en 1986. J'ai essayé particulièrement de rendre le bootstrap accessible aux praticiens dans mon livre de méthodes bootstrap et mon introduction à bootstrap avec des applications dans le livre de R. Hall est géniale mais très avancée et théorique. . Tim Hesterberg a écrit un excellent chapitre supplémentaire à l'un des livres d'introduction aux statistiques de David Moore. Feu Clifford Lunneborg avait un bon livre. Chihara et Hesterberg ont récemment publié un livre de statistiques mathématiques de niveau intermédiaire qui traite du bootstrap et d'autres méthodes de rééchantillonnage. Même des livres avancés tels que ceux de Lahiri ou de Shao et Tu donnent de bonnes explications conceptuelles. Manly réussit bien avec son livre qui traite des permutations et du bootstrap. Il est important de garder à l'esprit que le bootstrap dépend du principe de bootstrap "L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même façon que le comportement de l'échantillon d'origine sur une population. Il existe des exemples où ce principe échoue. Il est important de savoir que le bootstrap n’est pas la réponse à tous les problèmes statistiques. s donner de bonnes explications conceptuelles. Manly réussit bien avec son livre qui traite des permutations et du bootstrap. Il est important de garder à l'esprit que le bootstrap dépend du principe de bootstrap "L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même façon que le comportement de l'échantillon d'origine sur une population. Il existe des exemples où ce principe échoue. Il est important de savoir que le bootstrap n’est pas la réponse à tous les problèmes statistiques. s donner de bonnes explications conceptuelles. Manly réussit bien avec son livre qui traite des permutations et du bootstrap. Il est important de garder à l'esprit que le bootstrap dépend du principe de bootstrap "L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même façon que le comportement de l'échantillon d'origine sur une population. Il existe des exemples où ce principe échoue. Il est important de savoir que le bootstrap n’est pas la réponse à tous les problèmes statistiques. L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même manière que celui-ci sur une population. Il y a des exemples où ce principe échoue. Il est important de savoir que le bootstrap n'est pas la solution à tous les problèmes statistiques. L'échantillonnage avec remplacement se comporte sur l'échantillon d'origine de la même manière que celui-ci sur une population. Il y a des exemples où ce principe échoue. Il est important de savoir que le bootstrap n'est pas la solution à tous les problèmes statistiques.

Voici des liens amazoniens vers tous les livres que j'ai mentionnés et plus encore.

Statistiques mathématiques avec rééchantillonnage et R

Méthodes Bootstrap et leur application

Méthodes Bootstrap: Un guide pour les praticiens et les chercheurs

Une introduction aux méthodes d'amorçage avec des applications à R

Méthodes de rééchantillonnage pour les données dépendantes

Méthodes de Randomisation, Bootstrap et Monte Carlo en Biologie

Une introduction au bootstrap

Manuel de pratique des statistiques sur les entreprises Chapitre 18: Méthodes bootstrap et tests de permutation

Analyse de données par rééchantillonnage: concepts et applications

Le jackknife, le bootstrap et autres plans de rééchantillonnage

Le Jackknife et le Bootstrap

Tests de permutation, paramétriques et bootstrap des hypothèses

L'extension Bootstrap et Edgeworth

Michael Chernick
la source
2
@Procrastinateur. Je le fais plus souvent. dans certains cas, je suis pressé d’obtenir ma réponse et de revenir la nettoyer plus tard. Je n'ai pas eu l'habitude de convertir les adresses de lien en liens par titre et je ne suis pas sûr que ce soit tout ce qui est nécessaire. C'est un simple clic dans les deux sens, mais si vous ne pouvez pas attendre, cela ne vous dérange pas de faire les modifications. En fait je l'apprécie.
Michael Chernick
1
J'allais changer mon commentaire en "Cela ne vous dérange pas de faire les modifications" avec le "Mais si vous ne pouvez pas attendre" supprimé. Je vois à quel point ce que vous avez fait est plus simple, plus facile et prend probablement moins de temps, mais je ne l’ai pas encore appris et je ne vois pas cela comme un gros problème comme le font certains modérateurs et d’autres membres.
Michael Chernick
1
(+1) Je vous confie la puissance des points @ Michael Chernick. 10,000
Merci procrastinator. Je pensais pouvoir atteindre ce total aujourd'hui.
Michael Chernick
10

Grâce à l'amorçage, vous prenez simplement des échantillons à maintes reprises dans le même groupe de données (vos données d'échantillon) pour estimer la précision de vos estimations concernant l'ensemble de la population (ce qui existe réellement dans le monde réel).

Si vous deviez prélever un échantillon et faire des estimations sur la population réelle, vous pourriez ne pas être en mesure d'estimer la précision de vos estimations. Nous n'avons qu'une estimation et nous n'avons pas identifié comment cette estimation varie avec les différents échantillons que nous avons pu rencontrer.

Avec amorçage, nous utilisons cet échantillon principal pour générer plusieurs échantillons. Par exemple, si nous mesurions les bénéfices chaque jour pendant 1000 jours, nous pourrions prélever des échantillons au hasard dans cet ensemble. Nous pouvons enregistrer les bénéfices d'un jour au hasard, les enregistrer, les obtenir d'un autre jour (le même jour qu'avant - échantillonnage avec remplacement), les enregistrer, etc., jusqu'à ce que nous obtenions un "nouveau" échantillon de 1000 jours (à partir de l'échantillon d'origine).

Ce "nouvel" échantillon n'est pas identique à l'échantillon d'origine - en fait, nous pourrions générer plusieurs "nouveaux" échantillons comme ci-dessus. Lorsque nous examinons les variations des moyennes et des estimations, nous pouvons avoir une idée de la précision des estimations initiales.

Modifier - en réponse au commentaire

Les échantillons "plus récents" ne sont pas identiques au premier et les nouvelles estimations basées sur ceux-ci varieront. Ceci simule des échantillons répétés de la population. Les variations dans les estimations des échantillons "plus récents" générées par le bootstrap permettront de mieux comprendre la variation des estimations de l'échantillon en fonction des échantillons de la population. C’est ainsi que nous pouvons essayer de mesurer la précision des estimations initiales.

Bien sûr, au lieu de démarrer, vous pourriez prendre plusieurs nouveaux échantillons parmi la population, mais cela pourrait être impossible.

Andrew
la source
5
Merci! Cela je comprends beaucoup. Je me demande en particulier comment le rééchantillonnage d'un échantillon de la population aide à comprendre la population sous-jacente. Si nous rééchantillons un échantillon, comment pouvons-nous apprendre quelque chose sur la population plutôt que sur l'échantillon? Il semble y avoir là un saut quelque peu contre-intuitif.
Alan H.
4

Je me rends compte que c’est une vieille question avec une réponse acceptée, mais j’aimerais donner mon point de vue sur la méthode du bootstrap. Je ne suis en aucun cas un expert (plus un utilisateur de statistiques, comme l'OP) et j'apprécie toutes corrections ou commentaires.

J'aime voir bootstrap comme une généralisation de la méthode jackknife. Supposons donc que vous avez un échantillon S de taille 100 et estimez un paramètre en utilisant une statistique T (S). Vous souhaitez maintenant connaître un intervalle de confiance pour cette estimation ponctuelle. Si vous n'avez pas de modèle ni d'expression analytique pour l'erreur type, vous pouvez supprimer un élément de l'échantillon et créer un sous-échantillon avec l'élément i supprimé. Vous pouvez maintenant calculer et obtenir 100 nouvelles estimations du paramètre à partir duquel vous pouvez calculer, par exemple, l'erreur type et créer un intervalle de confiance. C'est la méthode jackknife JK-1.SiT(Si)

Vous pouvez également considérer tous les sous-ensembles de taille 98 et obtenir JK-2 (2 éléments supprimés) ou JK-3, etc.

Maintenant, bootstrap est juste une version aléatoire de ceci. En procédant à un rééchantillonnage via une sélection avec remplacements, vous "supprimeriez" un nombre aléatoire d'éléments (éventuellement aucun) et les "remplaceriez" par un (ou plusieurs) réplicats.

En remplaçant par réplique, le jeu de données rééchantillonné a toujours la même taille. Pour le jackknife, vous pouvez vous demander quel est l’effet du jackknifing sur des échantillons de taille 99 au lieu de 100, mais si la taille de l’échantillon est "suffisamment grande", cela n’est probablement pas un problème.

Dans jackknife, vous ne mélangez jamais les opérations delete-1 et delete-2, etc., pour vous assurer que les estimations Jacked proviennent d'échantillons de même taille.

Vous pouvez également envisager de diviser l’échantillon de taille 100 en 10 échantillons de taille 10. Par exemple, certains aspects théoriques seraient plus propres (sous-ensembles indépendants), mais réduiraient la taille de l’échantillon (de 100 à 10) au point d’être peu pratiques (dans la plupart des cas). cas).

Vous pouvez également envisager de superposer partiellement des sous-ensembles de certaines tailles. Tout cela est géré de manière automatique, uniforme et aléatoire par la méthode du bootstrap.

En outre, la méthode bootstrap vous donne une estimation de la distribution d'échantillonnage de votre statistique à partir de la distribution empirique de l'échantillon d'origine, afin que vous puissiez analyser d'autres propriétés de la statistique en plus de l'erreur type.

dioïde
la source
1

En paraphrasant Fox , je commencerais par dire que le processus de ré-échantillonnage répété de votre échantillon observé s’est révélé imiter le processus d’échantillonnage initial de la population entière.

N Brouwer
la source
le lien ci-dessus est caduc alors je ne sais pas ce que Fox a dit. Mais rien de tout cela ne me fait peur que l'initialisation crée une erreur. Supposons que vous vouliez connaître la fréquence relative des langues sur la Terre. Si vous preniez votre échantillon sur Internet et que vous le ré-échantillonniez, vous perdriez toutes les langues qui n'étaient pas sur le réseau.
aquagremlin
1

Un échantillon fini de la population se rapproche de la distribution de la même manière qu'un histogramme. En ré-échantillonnant, chaque nombre de cases est modifié et vous obtenez une nouvelle approximation. Les valeurs de grand nombre fluctuent moins que les petites valeurs à la fois dans la population d'origine et dans l'ensemble échantillonné. Puisque vous expliquez cela à un non-initié, vous pouvez affirmer que pour les grands nombres de bacs, il s’agit approximativement de la racine carrée du nombre de bacs dans les deux cas.

Si je découvre rousses et autres sur un échantillon de , le ré-échantillonnage permettrait d'estimer la fluctuation des rousses à , ce qui revient à supposer que la population d'origine était réellement distribué . Donc, si nous approximons la probabilité réelle comme celle échantillonnée, nous pouvons obtenir une estimation de l'erreur d'échantillonnage "autour" de cette valeur.2080100 1:4(0.2×0.8)×1001:4

Je pense qu'il est important de souligner que le bootstrap ne dévoile pas de "nouvelles" données, c'est simplement un moyen pratique et non paramétrique de déterminer approximativement les fluctuations d'échantillon à échantillonner si la probabilité réelle est donnée par celle échantillonnée.

utilisateur108131
la source
J'ai légèrement modifié la mise en forme de votre réponse. N'hésitez pas à la modifier si vous la trouvez inappropriée. Ce qu’il faut peut-être préciser, c’est pourquoi il existe une racine carrée?
Tim
1

Notons que dans les statistiques inférentielles classiques, l'entité théorique qui relie un échantillon à la population en tant que bon estimateur de la population est la distribution d'échantillonnage (tous les échantillons possibles pouvant être tirés de la population). La méthode bootstrap crée une sorte de distribution d'échantillonnage (une distribution basée sur plusieurs échantillons). Bien sûr, c’est une méthode du maximum de vraisemblance, mais la logique de base n’est pas très différente de celle de la théorie des probabilités traditionnelle à l’origine des statistiques classiques fondées sur la distribution normale.

Dr Z
la source
0

Mon point est très minuscule.

Bootstrap fonctionne car il exploite de manière intensive, par calcul, les bases de notre programme de recherche.

Pour être plus précis, en statistique ou en biologie, ou dans la plupart des sciences non théoriques, nous étudions des individus, collectant ainsi des échantillons.

Pourtant, à partir de tels échantillons, nous voulons faire des déductions sur d’autres personnes, qu’elles nous présentent ultérieurement ou dans différents échantillons.

Avec bootstrap, en fondant explicitement notre modélisation sur les composants individuels de notre échantillon, nous pouvons mieux (avec moins d'hypothèses en général) déduire et prédire pour d'autres individus.

Joe_74
la source
1
Cela ne semble pas distinguer le bootstrap de toute autre procédure statistique commençant par les données brutes. Il semble seulement distinguer ces procédures des procédures basées sur des statistiques sommaires ou des fréquences regroupées.
whuber
0

Quand j'explique aux débutants, je pense qu'il est utile de prendre un exemple spécifique ...

Imaginez que vous avez un échantillon aléatoire de 9 mesures d'une population. La moyenne de l'échantillon est de 60. Peut-on être sûr que la moyenne de l'ensemble de la population est également de 60? Évidemment, ce n'est pas parce que les petits échantillons vont varier, de sorte que l'estimation de 60 risque d'être inexacte. Pour savoir combien d'échantillons comme celui-ci varieront, nous pouvons effectuer quelques expériences - en utilisant une méthode appelée bootstrapping.

Le premier nombre dans l'échantillon est 74 et le second est 65, imaginons donc une grande population "fictive" comprenant un neuvième sur 74, un neuvième sur 65, et ainsi de suite. Le moyen le plus simple de prendre un échantillon aléatoire de cette population est de prendre un nombre au hasard dans l’échantillon de neuf, puis de le remplacer afin que vous disposiez à nouveau de l’échantillon initial de neuf et que vous en choisissiez un autre au hasard, et ainsi de suite jusqu’à ce que vous obteniez un échantillon. "rééchantillonnage" de 9. Lorsque j'ai fait cela, 74 n'apparaissent pas du tout, mais certains des autres numéros sont apparus deux fois et la moyenne était de 54,4. (Ceci est configuré sur la feuille de calcul à l' adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx - cliquez sur l'onglet Bootstrap en bas de l'écran.)

Lorsque je prenais 1000 échantillons de cette manière, leurs moyennes variaient de 44 à 80, avec 95% entre 48 et 72. Ce qui suggère qu’il existe une erreur pouvant aller de 16 à 20 unités (44 correspond à 16 fois moins que la moyenne de population supposée de 60, 80 est 20 unités ci-dessus) en utilisant des échantillons de taille 9 pour estimer la moyenne de la population. et que nous pouvons être sûrs à 95% que l’erreur sera de 12 ou moins. Nous pouvons donc être sûrs à 95% que la moyenne de la population se situera entre 48 et 72 ans.

Un certain nombre d’hypothèses ont été passées au crible, la plus évidente étant l’hypothèse que l’échantillon donne une image utile de la population - l’expérience montre que cela fonctionne généralement bien si l’échantillon est assez grand (9 est un peu petit mais facilite la voir ce qui se passe). La feuille de calcul disponible à l' adresse http://woodm.myweb.port.ac.uk/SL/resample.xlsx vous permet d'afficher des échantillons individuels, des histogrammes de 1 000 échantillons, de tester des échantillons plus volumineux, etc. Cet article contient une explication plus détaillée. à l' adresse https://arxiv.org/abs/1803.06214 .

Michael Wood
la source
C’est élémentaire et peut-être intuitif, mais je ne pense pas que cela explique pourquoi le bootstrap fonctionne.
Michael Chernick