Est-il vrai que le bootstrap centile ne doit jamais être utilisé?

31

Dans les notes du MIT OpenCourseWare pour 18.05 Introduction to Probability and Statistics, Spring 2014 (actuellement disponible ici ), il indique:

La méthode du centile de bootstrap est attrayante en raison de sa simplicité. Cependant, cela dépend de la distribution bootstrap de basée sur un échantillon particulier étant une bonne approximation de la vraie distribution de . Rice dit de la méthode centile: "Bien que cette équation directe des quantiles de la distribution d'échantillonnage bootstrap avec des limites de confiance puisse sembler initialement attrayante, sa justification est quelque peu obscure." [2] En bref, n'utilisez pas la méthode percentile bootstrap . Utilisez plutôt le bootstrap empirique (nous avons expliqué les deux dans l'espoir de ne pas confondre le bootstrap empirique avec le bootstrap centile). $\bar{x}^{*}$ $\bar{x}$

[2] John Rice, Statistiques mathématiques et analyse des données , 2e édition, p. 272

Après un peu de recherche en ligne, c'est la seule citation que j'ai trouvée qui indique carrément que le bootstrap centile ne doit pas être utilisé.

Ce dont je me souviens avoir lu le texte Principes et théorie de l'exploration de données et de l'apprentissage automatique de Clarke et al. est que la justification principale du bootstrap est le fait que où est le CDF empirique. (Je ne me souviens pas de détails au-delà de cela.)

\frac{1}{n} \sum_{je = 1}^{n} {\hat{F}}_{n} (X) \overset{p}{\to} F (X)

$\dfrac{1}{n}\sum_{i=1}^{n}\hat{F}_n(x) \overset{p}{\to} F(x)$

{\hat{F}}_{n}

$\hat{F}_n$

Est-il vrai que la méthode d'amorçage centile ne doit pas être utilisée? Dans l'affirmative, quelles alternatives existe-t-il lorsque n'est pas nécessairement connu (c'est-à-dire qu'il n'y a pas suffisamment d'informations disponibles pour effectuer un amorçage paramétrique)? $F$

Mise à jour

Parce que des éclaircissements ont été demandés, le "bootstrap empirique" de ces notes MIT fait référence à la procédure suivante: ils calculent $\delta_1 = (\hat{\theta}^{*}-\hat{\theta})_{\alpha/2}$ et $\delta_2 = (\hat{\theta}^{*}-\hat{\theta})_{1-\alpha/2}$ avec $\hat{\theta}^{*}$ les estimations bootstrapées de $\theta$ et $\hat{\theta}$ l'estimation complète de $\theta$ , et l'intervalle de confiance estimé résultant serait $[\hat{\theta}-\delta_2, \hat{\theta} - \delta_1]$ .

En substance, l'idée principale est la suivante: le bootstrap empirique estime un montant proportionnel à la différence entre l'estimation ponctuelle et le paramètre réel, c'est-à-dire , et utilise cette différence pour arriver à la valeur inférieure et limites CI supérieures. $\hat{\theta}-\theta$

Le "bootstrap centile" se réfère à ce qui suit: utilisez comme intervalle de confiance pour . Dans cette situation, nous utilisons le bootstrap pour calculer les estimations du paramètre d'intérêt et prenons les centiles de ces estimations pour l'intervalle de confiance. $[\hat{\theta}^*_{\alpha/2}, \hat{\theta}^*_{1-\alpha/2}]$ $\theta$

confidence-interval bootstrap Clarinettiste
la source

2

J'ai fortement modifié votre mise à jour. Veuillez vérifier que ma modification est logique. Vos citations tirées du livre d'Efron étaient déroutantes car ce que décrit Efron ne correspond pas à ce que vos notes du MIT appellent «bootstrap empirique». Je viens donc de laisser la description de ce que font les notes du MIT. BTW, je suis confus à propos d'une chose dans leur description du "bootstrap empirique": tout en haut de la page 6, il est dit "puisque est au 90e centile ..." - je ne ne comprends pas cela. Il est clair d'après l'exemple que le côté gauche de l'IC est donné en soustrayant le 90e centile, c'est-à-dire votre .

δ_{.1}^{*}

$\delta_{.1}^*$

δ_{2}

$\delta_2$

amoeba dit Reinstate Monica

2

@amoeba vos modifications sont correctes. Merci d'avoir aidé tout au long. Je pense qu'il y a des problèmes avec les notes du MIT; leur description des difficultés avec les bootstrap centiles n'était pas très claire et leur argument contre eux est principalement un appel à l'autorité. Je n'ai pas pu reproduire leur dernier exemple numérique contre le bootstrap percentile. Ne pensez pas qu'ils ont travaillé sur certains détails aussi bien que nous pendant que nous avons abordé cette question utile, et donc leur texte peut avoir quelques lacunes, comme vous le signalez.

EdM

En regardant cette note du MIT, je ne vois pas comment les auteurs ont obtenu les intervalles de confiance dans la section 9 "La méthode du centile de bootstrap (ne devrait pas être utilisée)" de [37.4, 42.4]. Il semble que l'échantillon qu'ils utilisent n'est pas le même que celui de la section 6, auquel ils font la comparaison. Si nous prenons l'échantillon pour δ ∗ = x ∗ - x rapporté au bas de la page 5 et ajoutons la moyenne de l'échantillon de 40,3 et prenons les IC, les limites que j'obtiens sont [38,9, 41,9] qui a la même largeur de 3 comme les limites qu'ils rapportent dans la section 6 de [38.7, 41.7].

Confondu le

21

Il existe certaines difficultés communes à toutes les estimations d'amorçage non paramétriques des intervalles de confiance (IC), certaines plus liées à la fois à l '"empirique" (appelé "de base" dans la boot.ci()fonction du bootpackage R et à la réf. 1 ). et les estimations de l'IC "centile" (comme décrit dans la réf. 2 ), et certaines qui peuvent être exacerbées par les IC centiles.

TL; DR : Dans certains cas, les estimations de l'IC de bootstrap centile peuvent fonctionner correctement, mais si certaines hypothèses ne se vérifient pas, l'IC percentile peut être le pire choix, avec le bootstrap empirique / de base le pire suivant. D'autres estimations d'IC bootstrap peuvent être plus fiables, avec une meilleure couverture. Tout peut être problématique. La consultation des tracés de diagnostic, comme toujours, permet d'éviter les erreurs potentielles encourues en acceptant simplement la sortie d'une routine logicielle.

Configuration de bootstrap

Suivant généralement la terminologie et les arguments de la réf. 1 , nous avons un échantillon de données tirée des variables aléatoires indépendantes et identiquement distribuées partageant une fonction de distribution cumulative . La fonction de distribution empirique (EDF) construit à partir de l'échantillon de données est . Nous nous intéressons à une caractéristique de la population, estimée par une statistique dont la valeur dans l'échantillon est . Nous aimerions savoir dans quelle mesure estime , par exemple, la distribution de . $y_1, ..., y_n$ $Y_i$ $F$ $\hat F$ $\theta$ $T$ $t$ $T$ $\theta$ $(T - \theta)$

Le bootstrap non paramétrique utilise l'échantillonnage de l'EDF pour imiter l'échantillonnage de , en prenant échantillons chacun de taille avec remplacement de . Les valeurs calculées à partir des échantillons de bootstrap sont indiquées par "*". Par exemple, la statistique calculée sur l'échantillon de bootstrap j fournit une valeur . $\hat F$ $F$ $R$ $n$ $y_i$ $T$ $T_j^*$

CI bootstrap empiriques / basiques contre centiles

Le bootstrap empirique / de base utilise la distribution de parmi les échantillons bootstrap de pour estimer la distribution de au sein de la population décrite par lui-même. Ses estimations de CI sont donc basées sur la distribution de , où est la valeur de la statistique dans l'échantillon d'origine. $(T^*-t)$ $R$ $\hat F$ $(T-\theta)$ $F$ $(T^*-t)$ $t$

Cette approche est basée sur le principe fondamental du bootstrap ( réf. 3 ):

La population est à l'échantillon comme l'échantillon est aux échantillons de bootstrap.

Le bootstrap centile utilise à la place les quantiles des valeurs eux-mêmes pour déterminer l'IC. Ces estimations peuvent être très différentes s'il y a un biais ou un biais dans la distribution de . $T_j^*$ $(T-\theta)$

Supposons qu'il existe un biais observé tel que: $B$

{\bar{T}}^{*} = t + B,

$\bar T^*=t+B,$

où est la moyenne de . Pour être concret, supposons que les 5e et 95e centiles des sont exprimés par et , où est la moyenne sur les échantillons bootstrap et sont chacun positifs et potentiellement différents pour permettre l'inclinaison. Les estimations basées sur le percentile du 5e et du 95e IC seraient directement fournies respectivement par: $\bar T^*$ $T_j^*$ $T_j^*$ $\bar T^*-\delta_1$ $\bar T^*+\delta_2$ $\bar T^*$ $\delta_1,\delta_2$

{\bar{T}}^{*} - δ_{1} = t + B - δ_{1}; {\bar{T}}^{*} + δ_{2} = t + B + δ_{2} .

$\bar T^*-\delta_1=t+B-\delta_1; \bar T^*+\delta_2=t+B+\delta_2.$

Les estimations de l'IC du 5e et du 95e centile par la méthode de bootstrap empirique / de base seraient respectivement ( réf. 1 , éq. 5.6, page 194):

2 t - ({\bar{T}}^{*} + δ_{2}) = t - B - δ_{2}; 2 t - ({\bar{T}}^{*} - δ_{1}) = t - B + δ_{1} .

$2t-(\bar T^*+\delta_2) = t-B-\delta_2; 2t-(\bar T^*-\delta_1) = t-B+\delta_1.$

Ainsi, les IC basés sur le centile se trompent à la fois et inversent les directions des positions potentiellement asymétriques des limites de confiance autour d'un centre doublement biaisé . Les CI centiles issus du bootstrap dans un tel cas ne représentent pas la distribution de . $(T-\theta)$

Ce comportement est bien illustré sur cette page , pour amorcer une statistique si négativement biaisée que l'estimation originale de l'échantillon est inférieure aux IC à 95% selon la méthode empirique / de base (qui inclut directement la correction de biais appropriée). Les IC à 95% basés sur la méthode du centile, disposés autour d'un centre doublement négatif, sont en fait tous les deux inférieurs même à l'estimation ponctuelle négativement biaisée de l'échantillon d'origine!

Le bootstrap percentile ne doit-il jamais être utilisé?

Cela pourrait être une surestimation ou un euphémisme, selon votre point de vue. Si vous pouvez documenter un biais et un biais minimaux, par exemple en visualisant la distribution de avec des histogrammes ou des diagrammes de densité, le bootstrap centile devrait fournir essentiellement le même CI que le CI empirique / de base. Celles-ci sont probablement toutes deux meilleures que la simple approximation normale de l'IC. $(T^*-t)$

Aucune des deux approches, cependant, ne fournit la précision de couverture qui peut être fournie par d'autres approches de bootstrap. Efron a reconnu dès le début les limites potentielles des IC centiles, mais a déclaré: "La plupart du temps, nous nous contenterons de laisser parler les degrés de succès variables des exemples." ( Réf.2 , page 3)

Des travaux ultérieurs, résumés par exemple par DiCiccio et Efron ( Réf. 4 ), ont développé des méthodes qui "s'améliorent d'un ordre de grandeur sur la précision des intervalles standard" fournies par les méthodes empiriques / basiques ou centiles. Ainsi, on pourrait faire valoir que ni les méthodes empiriques / de base ni les méthodes de centile ne devraient être utilisées, si vous vous souciez de la précision des intervalles.

Dans les cas extrêmes, par exemple en échantillonnant directement à partir d'une distribution log-normale sans transformation, aucune estimation d'IC bootstrap ne peut être fiable, comme l' a noté Frank Harrell .

Qu'est-ce qui limite la fiabilité de ces CI et d'autres CI amorcés?

Plusieurs problèmes peuvent rendre les CI amorcés peu fiables. Certains s'appliquent à toutes les approches, d'autres peuvent être atténués par des approches autres que les méthodes empiriques / de base ou centiles.

La première, générale, question est de savoir comment bien la distribution empirique représente la distribution de la population . Si ce n'est pas le cas, aucune méthode d'amorçage ne sera fiable. En particulier, l'amorçage pour déterminer tout élément proche des valeurs extrêmes d'une distribution peut être peu fiable. Cette question est discutée ailleurs sur ce site, par exemple ici et ici . Les quelques valeurs discrètes disponibles dans les queues de pour un échantillon particulier pourraient ne pas très bien représenter les queues d'un continu . Un cas extrême mais illustratif essaie d'utiliser le bootstrap pour estimer la statistique d'ordre maximum d'un échantillon aléatoire à partir d'un uniforme $\hat F$ $F$ $\hat F$ $F$ $\;\mathcal{U}[0,\theta]$ distribution, comme expliqué bien ici . Notez que les IC à 95% ou 99% amorcés sont eux-mêmes à la queue d'une distribution et pourraient donc souffrir d'un tel problème, en particulier avec de petits échantillons.

D' autre part, rien ne garantit que l' échantillonnage d'une quantité quelconque de aura la même distribution que ce prélèvement de . Pourtant, cette hypothèse sous-tend le principe fondamental du bootstrap. Les quantités possédant cette propriété souhaitable sont appelées pivots . Comme AdamO l'explique : $\hat F$ $F$

Cela signifie que si le paramètre sous-jacent change, la forme de la distribution n'est décalée que par une constante et l'échelle ne change pas nécessairement. C'est une hypothèse forte!

Par exemple, s'il y a un biais, il est important de savoir que l'échantillonnage de autour de est le même que l'échantillonnage de autour de . Et c'est un problème particulier dans l'échantillonnage non paramétrique; comme Réf. 1 le dit à la page 33: $F$ $\theta$ $\hat F$ $t$

Dans les problèmes non paramétriques, la situation est plus compliquée. Il est désormais peu probable (mais pas strictement impossible) qu'une quantité puisse être exactement déterminante.

Donc, le mieux qui soit généralement possible est une approximation. Cependant, ce problème peut souvent être résolu de manière adéquate. Il est possible d'estimer à quel point une quantité échantillonnée est à pivot, par exemple avec des graphiques à pivot comme recommandé par Canty et al . Ceux-ci peuvent montrer comment les distributions d'estimations bootstrapées varient avec , ou dans quelle mesure une transformation fournit une quantité qui est pivot. Les méthodes permettant d'améliorer les IC amorcés peuvent essayer de trouver une transformation telle que soit plus proche du pivot pour estimer les IC dans l'échelle transformée, puis revenir à l'échelle d'origine. $(T^*-t)$ $t$ $h$ $(h(T^*)-h(t))$ $h$ $(h(T^*)-h(t))$

La boot.ci()fonction fournit des CI bootstrap étudiés (appelés «bootstrap- t » par DiCiccio et Efron ) et des CI (biais corrigé et accéléré, où l '«accélération» traite de l'inclinaison) qui sont «précis au second ordre» en ce que la différence entre les la couverture souhaitée et obtenue (par exemple, IC à 95%) est de l'ordre de , par rapport à la précision du premier ordre uniquement (ordre de ) pour les méthodes empiriques / de base et centiles ( Ref 1 , pp 212-3;. . Ref 4 ). Ces méthodes, cependant, nécessitent de garder une trace des variances au sein de chacun des échantillons , pas seulement les valeurs individuelles de $BC_a$ $\alpha$ $n^{-1}$ $n^{-0.5}$ $T_j^*$ utilisé par ces méthodes plus simples.

Dans les cas extrêmes, il peut être nécessaire de recourir au bootstrap dans les échantillons bootstrap eux-mêmes pour fournir un ajustement adéquat des intervalles de confiance. Ce "Double Bootstrap" est décrit dans la section 5.6 de la réf. 1 , avec d'autres chapitres de ce livre suggérant des moyens de minimiser ses exigences de calcul extrêmes.

EdM
la source

1

Je ne comprends pas vraiment pourquoi vous dites que le «bootstrap empirique» serait «beaucoup moins sensible» aux écarts par rapport à la répartition de la population. Le bootstrap centile et ce «bootstrap empirique» n'utilisent-ils pas exactement les mêmes quantiles de la distribution bootstrap? Je pensais que la seule différence est que si la distribution bootstrap est asymétrique autour de la moyenne de l'échantillon, les intervalles de ces deux approches seront inversés. Comme décrit ici: en.wikipedia.org/wiki/… ("basique" vs "centile").

amoeba dit Reinstate Monica

1

@amoeba, ils diffèrent dans la façon dont ils gèrent le biais dans les estimations du bootstrap, pas seulement en inversant les intervalles. Cette réponse a besoin de plus de travail pour séparer les problèmes de bootstrap empirique vs percentile des problèmes liés aux queues de distributions, que j'ai quelque peu confondu ici et que j'espère clarifier dans quelques jours.

EdM

1

Je n'approuve pas cette réponse parce que sur la base des références fournies et de la justification (très raisonnable) présentée: " le bootstrap centile ne devrait jamais être utilisé " est simplement une surestimation, pas "un peu de". Oui, si nous le pouvons, nous devrions utiliser une certaine forme de méthode de bootstrap corrigée des biais, mais non, mieux utiliser le bootstrap centile pour obtenir des estimations d'IC quelque peu inefficaces plutôt que de coller inconsciemment 2SE autour de la moyenne et de penser que nous avons découvert l'Amérique. (Je suis largement d'accord avec ce que dit le corps de la réponse, mais pas avec le dernier paragraphe car je pense qu'il laisse la porte ouverte à une mauvaise interprétation.)

usεr11852 dit Reinstate Monic

1

Réorganisé et corrigé en grande partie, en partie en réponse aux commentaires.

EdM

1

@Confondé ce que vous avez écrit est équivalent à la forme que j'ai fournie pour le bootstrap empirique / de base. Notez que votre est , où est le centile supérieur d'intérêt parmi les échantillons de bootstrap. Alors . J'ai utilisé pour votre et exprimé comme moyenne de bootstrap plus un décalage .

U^{*}

$U^*$

{\hat{θ}}_{U}^{*} - \hat{θ}

$\hat\theta^*_U - \hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

\hat{θ} - U^{*} = \hat{θ} - ({\hat{θ}}_{U}^{*} - \hat{θ}) = 2 \hat{θ} - {\hat{θ}}_{U}^{*}

$\hat\theta - U^* = \hat\theta -(\hat\theta^*_U - \hat\theta)=2 \hat\theta - \hat\theta^*_U$

t

$t$

\hat{θ}

$\hat\theta$

{\hat{θ}}_{U}^{*}

$\hat\theta^*_U$

{\bar{T}}^{*}

$\bar T^*$

δ_{2}

$\delta_2$

EdM

8

Quelques commentaires sur une terminologie différente entre le MIT / Rice et le livre d'Efron

Je pense que la réponse d'EdM fait un travail fantastique en répondant à la question originale des OP, en relation avec les notes de cours du MIT. Cependant, le PO cite également le livre d'Efrom (2016) Computer Age Statistical Inference, qui utilise des définitions légèrement différentes, ce qui peut prêter à confusion.

Chapitre 11 - Exemple de corrélation d'échantillon de score d'élève

Cet exemple utilise un échantillon dont le paramètre d'intérêt est la corrélation. Dans l'échantillon, il est observé comme . Efron effectue ensuite réplications bootstrap non paramétriques pour la corrélation de l'échantillon de score des élèves et trace l'histogramme des résultats (page 186) $\hat \theta = 0.498$ $B = 2000$ $\hat \theta^*$

Bootstrap à intervalle standard

Il définit ensuite le bootstrap d'intervalle standard suivant :

\hat{θ} \pm 1.96 \hat{s e}

$\hat \theta \pm 1.96 \hat{se}$

Pour une couverture de 95% où est considéré comme l'erreur standard de bootstrap: , également appelé écart-type empirique des valeurs de bootstrap. $\hat{se}$ $se_{boot}$

Écart type empirique des valeurs de bootstrap:

Soit l'échantillon d'origine soit et l'exemple d'amorçage soit . Chaque échantillon bootstrap fournit une réplication bootstrap de la statistique d'intérêt: $\mathbf{x} = (x_1,x_2,...,x_n)$ $\mathbf{x^*} = (x_1^*,x_2^*,...,x_n^*)$ $b$

{\hat{θ}}^{* b} = s (x^{* b}) for b = 1, 2, . . ., B

$\hat \theta^{*b} = s(\mathbf{x}^{*b}) \ \text{ for } b = 1,2,...,B$

L'estimation bootstrap résultante de l'erreur standard pour est $\hat \theta$

{\hat{s e}}_{b o o t} = {[\sum_{b = 1}^{B} ({\hat{θ}}^{* b} - {\hat{θ}}^{*})^{2} / (B - 1)]}^{1 / 2}

$\hat{se}_{boot} = \left[ \sum_{b=1}^B (\hat \theta^{*b} - \hat \theta^{*})^2 / (B-1)\right]^{1/2}$

{\hat{θ}}^{*} = \frac{\sum_{b = 1}^{B} {\hat{θ}}^{* b}}{B}

$\hat \theta^{*} = \frac{\sum_{b=1}^B \hat \theta^{*b}}{B}$

Cette définition semble différente de celle utilisée dans la réponse d'EdM:

Le bootstrap empirique / de base utilise la distribution de parmi les échantillons bootstrap de pour estimer la distribution de au sein de la population décrite par lui-même. $(T^∗−t)$ $R$ $\hat F$ $(T−\theta)$ $F$

Bootstrap percentile

Ici, les deux définitions semblent alignées. Depuis Efron page 186:

La méthode percentile utilise la forme de la distribution bootstrap pour améliorer les intervalles standard. Après avoir généré réplications nous utilisons ensuite les centiles de leur distribution pour définir les limites de confiance des centiles . $B$ $\hat \theta^{*1}, \hat \theta^{*2},...,\hat \theta^{*B}$

Dans cet exemple, ce sont respectivement 0,118 et 0,758.

Citant EdM:

Le bootstrap centile utilise à la place des quantiles des valeurs eux-mêmes pour déterminer l'IC. $T^∗_j$

Comparaison de la méthode standard et centile telle que définie par Efron

Sur la base de ses propres définitions, Efron se donne beaucoup de mal pour affirmer que la méthode du centile est une amélioration. Pour cet exemple, le CI résultant est:

Conclusion

Je dirais que la question initiale du PO est alignée sur les définitions fournies par EdM. Les modifications apportées par l'OP pour clarifier les définitions sont alignées sur le livre d'Efron et ne sont pas exactement les mêmes pour Empirical vs Standard bootstrap CI.

Les commentaires sont les bienvenus

Xavier Bourret Sicotte
la source

2

Merci pour la clarification terminologique. À première vue, les CI «bootstrap d'intervalle standard» semblent être similaires aux CI «normaux» produits par boot.ci(), en ce sens qu'ils sont basés sur une approximation normale des erreurs et sont forcés d'être symétriques par rapport à l'estimation d'échantillon de . C'est différent des CI «empiriques / de base», qui, comme les CI «centiles», permettent l'asymétrie. J'ai été surpris de la grande différence entre les IC «empiriques / basiques» et les IC «centiles» dans la gestion du biais; Je n'y avais pas beaucoup réfléchi avant d'avoir essayé de répondre à cette question.

θ

$\theta$

EdM

Je viens de vérifier le manuel pour boot.ci(): "Les intervalles normaux utilisent également la correction du biais de bootstrap." Cela semble donc être une différence par rapport au "bootstrap à intervalle standard" décrit par Efron.

EdM

Assez juste - les intervalles normaux décrits dans le livre sont le scénario de base à partir duquel il construit des approches meilleures et plus précises (jusqu'à BC et BCa), il est donc logique qu'il ne soit pas mis en œuvre

Xavier Bourret Sicotte

@EdM et Xavier: l' inférence statistique de l'ère informatique décrit-elle les IC "empiriques / de base"? Si oui, comment le livre les appelle-t-il? Sinon, n'est-ce pas étrange?

amibe dit Réintégrer Monica le

1

@amoeba pas que je puisse voir à première vue. Le livre est disponible en pdf pour un usage personnel. Comme je le dis dans ma réponse et comme indiqué dans le livre, il y a de meilleurs choix que les CI "empiriques / de base" et "centiles" en ce qui concerne la couverture, donc je peux voir pourquoi on pourrait être omis: sans biais et avec CI symétrique, il n'y a pas beaucoup de différence entre eux. Je ne peux certainement pas reprocher à l'inventeur du bootstrap d'avoir mis l'accent sur sa méthode CI initiale, car elle conduit plus directement à BC et BCa qu'à «empirique / basique».

EdM

5

Je suis votre ligne directrice: "Vous cherchez une réponse tirée de sources crédibles et / ou officielles."

Le bootstrap a été inventé par Brad Efron. Je pense qu'il est juste de dire qu'il est un statisticien distingué. C'est un fait qu'il est professeur à Stanford. Je pense que cela rend ses opinions crédibles et officielles.

Je crois que Computer Age Statistical Inference d'Efron et Hastie est son dernier livre et devrait donc refléter ses vues actuelles. De la p. 204 (11.7, notes et détails),

Les intervalles de confiance du bootstrap ne sont ni exacts ni optimaux, mais visent plutôt une large applicabilité combinée à une précision presque exacte.

Si vous lisez le chapitre 11, "Intervalles de confiance du bootstrap", il donne 4 méthodes pour créer des intervalles de confiance du bootstrap. La seconde de ces méthodes est (11.2) la méthode centile. Les troisième et quatrième méthodes sont des variantes de la méthode centile qui tentent de corriger ce qu'Efron et Hastie décrivent comme un biais dans l'intervalle de confiance et pour lesquelles elles donnent une explication théorique.

En passant, je ne peux pas décider s'il y a une différence entre ce que les gens du MIT appellent CI bootstrap empirique et CI centile. J'ai peut-être un pet de cerveau, mais je vois la méthode empirique comme la méthode centile après avoir soustrait une quantité fixe. Cela ne devrait rien changer. Je suis probablement en train de mal lire, mais je serais vraiment reconnaissant si quelqu'un pouvait expliquer comment je comprenais mal son texte.

Quoi qu'il en soit, la principale autorité ne semble pas avoir de problème avec les CI centiles. Je pense également que son commentaire répond aux critiques du bootstrap CI qui sont mentionnées par certaines personnes.

AJOUT MAJEUR

Premièrement, après avoir pris le temps de digérer le chapitre et les commentaires du MIT, la chose la plus importante à noter est que ce que le MIT appelle le bootstrap empirique et le bootstrap centile diffèrent - Le bootstrap empirique et le bootstrap centile seront différents en ce qu'ils appellent l'empirique bootstrap sera l'intervalle tandis que le centile bootstrap aura l'intervalle de confiance . Je dirais en outre que selon Efron-Hastie, le bootstrap centile est plus canonique. La clé de ce que le MIT appelle le bootstrap empirique est de regarder la distribution de . Mais pourquoi , pourquoi pas $[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$ $[\bar{x*}-\delta_{.9},\bar{x*}-\delta_{.1}]$
$\delta = \bar{x} - \mu$ $\bar{x} - \mu$ $\mu-\bar{x}$ . Tout aussi raisonnable. De plus, le delta pour le deuxième ensemble est le bootstrap de percentile souillé!. Efron utilise le centile et je pense que la distribution des moyens réels devrait être la plus fondamentale. J'ajouterais qu'en plus de l'Efron et Hastie et du papier d'Efron de 1979 mentionné dans une autre réponse, Efron a écrit un livre sur le bootstrap en 1982. Dans les 3 sources il y a des mentions de bootstrap percentile, mais je ne trouve aucune mention de ce les gens du MIT appellent le bootstrap empirique. De plus, je suis presque sûr qu'ils calculent le bootstrap de centile de manière incorrecte. Ci-dessous se trouve un carnet R que j'ai écrit.

Commments on the MIT reference Commençons par mettre les données MIT dans R. J'ai fait un simple copier-coller de leurs échantillons de bootstrap et les ai enregistrés dans boot.txt.

Masquer orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") signifie = as.numeric (lapply (boot , signifie)) # lapply crée des listes, pas des vecteurs. Je l'utilise TOUJOURS pour les trames de données. mu = moyenne (bottine d'origine) del = tri (signifie - mu) # les différences mu signifie del Et plus loin

Masquer mu-sort (del) [3] mu-sort (del) [18] Nous obtenons donc la même réponse qu'eux. En particulier, j'ai le même 10e et 90e centile. Je tiens à souligner que la plage du 10e au 90e centile est 3. C'est la même chose que le MIT.

Quels sont mes moyens?

Masquer signifie trier (signifie) J'obtiens des moyens différents. Point important - mes 10e et 90e signifient 38,9 et 41,9. C'est ce à quoi je m'attendrais. Ils sont différents parce que je considère des distances de 40,3, donc j'inverse l'ordre de soustraction. Notez que 40,3-38,9 = 1,4 (et 40,3 - 1,6 = 38,7). Donc, ce qu'ils appellent le bootstrap centile donne une distribution qui dépend des moyens réels que nous obtenons et non des différences.

Point clé Le bootstrap empirique et le bootstrap centile seront différents en ce que ce qu'ils appellent le bootstrap empirique sera l'intervalle [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] tandis que le bootstrap percentile aura l'intervalle de confiance [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 ]. En règle générale, ils ne devraient pas être si différents. J'ai mes réflexions sur ce que je préférerais, mais je ne suis pas la source définitive que OP demande. Expérience de réflexion - les deux devraient-ils converger si la taille de l'échantillon augmente. Notez qu'il y a 210210 échantillons possibles de taille 10. N'allons pas fou, mais qu'en est-il si nous prenons 2000 échantillons - une taille généralement considérée comme suffisante.

Masquer set.seed (1234) # boot.2k reproductible = matrice (NA, 10,2000) pour (i in c (1: 2000)) {boot.2k [, i] = sample (orig.boot, 10, replace = T)} mu2k = sort (appliquer (boot.2k, 2, moyenne)) Regardons mu2k

Masquer le résumé (mu2k) moyenne (mu2k) -mu2k [200] moyenne (mu2k) - mu2k [1801] Et les valeurs réelles-

Masquer mu2k [200] mu2k [1801] Alors maintenant, ce que le MIT appelle le bootstrap empirique donne un intervalle de confiance à 80% de [, 40,3 -1,87,40,3 +1,64] ou [38,43,41.94] et leur mauvaise distribution en centile donne [38,5, 42]. Cela a bien sûr un sens car la loi des grands nombres dira dans ce cas que la distribution devrait converger vers une distribution normale. Incidemment, cela est discuté dans Efron et Hastie. La première méthode qu'ils donnent pour calculer l'intervalle de bootstrap est d'utiliser mu = / - 1,96 sd. Comme ils le font remarquer, pour un échantillon suffisamment grand, cela fonctionnera. Ils donnent ensuite un exemple pour lequel n = 2000 n'est pas assez grand pour obtenir une distribution approximativement normale des données.

Conclusions Tout d'abord, je veux énoncer le principe que j'utilise pour décider des questions de dénomination. «C'est mon parti que je peux pleurer si je le veux.» Bien qu'énoncé à l'origine par Petula Clark, je pense qu'il applique également des structures de dénomination. Donc, avec une déférence sincère pour le MIT, je pense que Bradley Efron mérite de nommer les différentes méthodes d'amorçage comme il le souhaite. Qu'est-ce qu'il fait ? Je ne trouve aucune mention dans Efron de «bootstrap empirique», juste un centile. Je suis donc humblement en désaccord avec Rice, MIT, et al. Je voudrais également souligner que selon la loi des grands nombres, telle qu'utilisée dans la conférence du MIT, empirique et centile devraient converger vers le même nombre. À mon goût, le centile bootstrap est intuitif, justifié et ce que l'inventeur du bootstrap avait en tête. J'ajouterais que j'ai pris le temps de le faire juste pour ma propre édification, pas autre chose. En particulier, Je n'ai pas écrit Efron, ce qui est probablement ce que OP devrait faire. Je suis très disposé à me corriger.

aginensky
la source

3

"Je pense qu'il est juste de dire qu'il est un statisticien distingué." - Oui je dirais que c'est juste!

Xavier Bourret Sicotte

Je pense que ce que OP appelle "boostrap empirique" est ce que Wikipedia appelle "bootstrap de base" ici en.wikipedia.org/wiki/… . Il utilise les mêmes centiles que le "bootstrap centile", vous avez raison, mais en quelque sorte les retourne. Efron et Hastie incluent-ils cela dans leurs 4 méthodes? Comment l'appellent-ils?

amibe dit Réintégrer Monica le

J'ai essayé de clarifier cela dans la question sur la base de ce que j'ai lu dans les notes du MIT. Faites-moi savoir si quelque chose n'est pas clair (ou si vous avez le temps de vérifier les notes elles-mêmes, vérifiez l'exactitude de mon message).

Clarinettiste

@Xavier on pourrait faire valoir que ma déclaration Efron était un euphémisme.

aginensky

1

[\bar{x *} - δ_{.1}, \bar{x *} - δ_{.9}]

$[\bar{x*}-\delta_{.1},\bar{x*}-\delta_{.9}]$

\bar{x *}

$\bar{x*}$

EdM

2

Comme déjà indiqué dans les réponses précédentes, le "bootstrap empirique" est appelé "bootstrap de base" dans d'autres sources (y compris la fonction R boot.ci ), qui est identique au "bootstrap centile" retourné à l'estimation ponctuelle. Venables et Ripley écrivent ("Modern Applied Statstics with S", 4e éd., Springer, 2002, p. 136):

Dans les problèmes asymétriques, les intervalles de base et de centile diffèrent considérablement et les intervalles de base semblent plus rationnels.

$n$

$f(x)=3x^2$ $\pm t_{1-\alpha/2}\sqrt{s^2/n})$ $\pm z_{1-\alpha/2}\sqrt{s^2/n})$

$\lambda$ $\pm z_{1-\alpha/2}$ $\pm z_{1-\alpha/2}$

Dans les deux cas d'utilisation, le bootstrap BCa a la probabilité de couverture la plus élevée parmi les méthodes de bootstrap, et le bootstrap percentile a une probabilité de couverture plus élevée que le bootstrap de base / empirique.

cdalitz
la source