Sélection adaptative du nombre de répliques bootstrap

8

Comme pour la plupart des méthodes Monte Carlo, la règle de bootstrap est que plus le nombre de répliques est élevé, plus l'erreur Monte Carlo est faible. Mais les rendements diminuent, il n'est donc pas logique d'exécuter autant de répliques que possible.

Supposons que vous vouliez vous assurer que votre estimation θ^ d'une certaine quantité θ est à l'intérieur de ε de l'estimation θ~ que vous obtiendriez avec une infinité de répétitions. Par exemple, vous pouvez être raisonnablement sûr que les deux premières décimales de θ^ ne sont pas erronées en raison d'une erreur de Monte Carlo, auquel cas ε=.005 . Existe-t-il une procédure adaptative que vous pouvez utiliser dans laquelle vous continuez à générer des répliques bootstrap, en vérifiant θ^ et en vous arrêtant selon une règle telle que, par exemple, |θ^θ~|<ε avec une confiance de 95%?

NB Bien que les réponses existantes soient utiles, j'aimerais toujours voir un schéma pour contrôler la probabilité que |θ^θ~|<ε .

Kodiologue
la source
Je m'oppose à appeler le bootstrap une méthode Monte Carlo. Ce n'est pas même si souvent des méthodes de Monte Carlo sont nécessaires pour obtenir de bonnes approximations des estimations de bootstrap car l'énumération est impossible.
Michael R. Chernick
Je ne sais pas exactement ce que vous demandez. Mais il est souvent difficile de savoir à l'avance combien de répliques de bootstrap vous avez besoin pour faire l'approximation de Monte Carlo de l'estimation de bootstrap proche de l'estimation de bootstrap réelle. J'ai suggéré de faire quelque chose comme ce que vous proposez. Ce serait d'ajouter des répétitions jusqu'à ce que le changement d'estimation soit faible. Ce serait une indication de convergence.
Michael R. Chernick
@MichaelChernick "Je ne sais pas exactement ce que vous demandez." - Que puis-je faire pour aider à le clarifier?
Kodiologue
Quand vous parlez de sélection adaptative, voulez-vous dire ce que je suggère? C'est de continuer à prendre des réplications bootstrap jusqu'à ce que deux estimations successives soient très proches (disons que la différence absolue est inférieure à un spécifié ). ϵ
Michael R. Chernick
@MichaelChernick Je ne pense pas que regarder les différences entre les successifs suffirait pour obtenir . Mais je ne suis pas sur. θ~|θ^θ~|<ε
Kodiologue

Réponses:

3

Si l'estimation de sur les répliques est normalement distribuée, je suppose que vous pouvez estimer l'erreur sur partir de l'écart type :θσ^θ^σ

σ^=σn

alors vous pouvez simplement arrêter lorsque .1.96σ^<ϵ

Ou ai-je mal compris la question? Ou voulez-vous une réponse sans supposer la normalité et en présence d'autocorrélations importantes?

fabiob
la source
Ce serait bien de ne pas avoir à assumer la normalité, mais nous pouvons certainement supposer que les répliques bootstrap sont sélectionnées indépendamment, si c'est le genre de dépendance que vous entendez par autocorrélation.
Kodiologist
Si nous ne supposons pas la normalité, nous ne pouvons même pas être sûrs que la moyenne est une bonne estimation pour le thêta. Je crois qu'il faut plus d'hypothèses pour proposer une solution ...
fabiob
Pour être clair, quelle chose, exactement, supposez-vous être normale? Votre texte de réponse indique "les répliques sont normalement distribuées", mais chaque réplique est un échantillon de la même taille que l'échantillon d'origine. Je ne sais pas ce que cela signifierait pour une collection d'échantillons à distribuer normalement.
Kodiologue
Je suppose que la distribution de l'estimation de la quantité qui vous intéresse, que vous effectuez sur la réplique . Je vais modifier ma formulation qui n'était pas claire. θii
fabiob
3
remarquez enfin comment ma réponse et celle de michael sont les mêmes si vous remplacez C-> et B -> , ce qui suggère un moyen de "déterminer" C. vous pouvez prendre la variance de , ou le double de cela si vous voulez être conservateur. êtes-vous d'accord (ou pensez que je manque quelque chose)? σ2nθi
fabiob
2

Aux pages 113-114 de la première édition de mon livre Bootstrap Methods: A Practitioner's Guide Wiley (1999), je discute des méthodes pour déterminer le nombre de réplications bootstrap à utiliser lors de l'utilisation de l'approximation Monte Carlo.

J'entre dans le détail d'une procédure due à Hall décrite dans son livre The Bootstrap and Edgeworth Expansion, Springer-Verlag (1992). Il montre que lorsque la taille de l'échantillon n est grande et que le nombre de réplications bootstrap B est grand, la variance de l'estimation bootstrap est C / B où C est une constante inconnue qui ne dépend pas de n ou B. Donc, si vous pouvez déterminer C ou en le liant au-dessus, vous pouvez déterminer une valeur pour B qui rend l'erreur de l'estimation plus petite que le que vous spécifiez dans votre question.ϵ

Je décris une situation où C = 1/4. Mais si vous n'avez pas une bonne idée de la valeur C, vous pouvez recourir à l'approche que vous décrivez, où vous prenez B = 500, puis la doubler à 1000 et comparer la différence dans ces estimations de bootstrap. Cette procédure peut être répété jusqu'à ce que la différence soit aussi petite que vous le souhaitez.

Une autre idée est donnée par Efron dans l'article "Better bootstrap confidence intervalles (with discussion)", (1987) Journal of the American Statistical Association Vol. 82 pp 171-200.

Michael R. Chernick
la source
Ah, par "deux estimations successives", je pensais que vous vouliez dire quelque chose comme l'estimation de partir de la réplique 1 002 par rapport à l'estimation de partir de la réplique 1 003. Il est plus intuitif de comparer l'estimation de l'ensemble des 500 premiers répliques à celle du second 500 ou à celle du premier 1000. θθ
Kodiologue
J'ai déjà vu Efron (1987), mais quelle partie aborde la question du choix du nombre de répliques bootstrap?
Kodiologue
Dans mon livre, je mentionne que dans Efron (1967) et Booth et Sarkar (1998), ils soulignent qu'après un nombre (important) d'itérations particulier, l'erreur dans l'estimation du bootstrap est dominée par l'erreur due à l'utilisation de la distribution empirique (en tant qu'approximation de la distribution de la population) réduisent l'erreur dans l'approximation de Monte Carlo. Je n'ai pas cité la ou les pages particulières où cela est discuté.
Michael R. Chernick
Dans le commentaire ci-dessus, je voulais parler d'Efron (1987).
Michael R. Chernick