Dans les notes du MIT OpenCourseWare pour 18.05 Introduction to Probability and Statistics, Spring 2014 (actuellement disponible ici ), il indique:
La méthode du centile de bootstrap est attrayante en raison de sa simplicité. Cependant, cela dépend de la distribution bootstrap de basée sur un échantillon particulier étant une bonne approximation de la vraie distribution de . Rice dit de la méthode centile: "Bien que cette équation directe des quantiles de la distribution d'échantillonnage bootstrap avec des limites de confiance puisse sembler initialement attrayante, sa justification est quelque peu obscure." [2] En bref, n'utilisez pas la méthode percentile bootstrap . Utilisez plutôt le bootstrap empirique (nous avons expliqué les deux dans l'espoir de ne pas confondre le bootstrap empirique avec le bootstrap centile). ˉ x
[2] John Rice, Statistiques mathématiques et analyse des données , 2e édition, p. 272
Après un peu de recherche en ligne, c'est la seule citation que j'ai trouvée qui indique carrément que le bootstrap centile ne doit pas être utilisé.
Ce dont je me souviens avoir lu le texte Principes et théorie de l'exploration de données et de l'apprentissage automatique de Clarke et al. est que la justification principale du bootstrap est le fait que où est le CDF empirique. (Je ne me souviens pas de détails au-delà de cela.) F n
Est-il vrai que la méthode d'amorçage centile ne doit pas être utilisée? Dans l'affirmative, quelles alternatives existe-t-il lorsque n'est pas nécessairement connu (c'est-à-dire qu'il n'y a pas suffisamment d'informations disponibles pour effectuer un amorçage paramétrique)?
Mise à jour
Parce que des éclaircissements ont été demandés, le "bootstrap empirique" de ces notes MIT fait référence à la procédure suivante: ils calculent et avec les estimations bootstrapées de et l'estimation complète de , et l'intervalle de confiance estimé résultant serait .
En substance, l'idée principale est la suivante: le bootstrap empirique estime un montant proportionnel à la différence entre l'estimation ponctuelle et le paramètre réel, c'est-à-dire , et utilise cette différence pour arriver à la valeur inférieure et limites CI supérieures.
Le "bootstrap centile" se réfère à ce qui suit: utilisez comme intervalle de confiance pour . Dans cette situation, nous utilisons le bootstrap pour calculer les estimations du paramètre d'intérêt et prenons les centiles de ces estimations pour l'intervalle de confiance.θ
la source
Réponses:
Il existe certaines difficultés communes à toutes les estimations d'amorçage non paramétriques des intervalles de confiance (IC), certaines plus liées à la fois à l '"empirique" (appelé "de base" dans la
boot.ci()
fonction duboot
package R et à la réf. 1 ). et les estimations de l'IC "centile" (comme décrit dans la réf. 2 ), et certaines qui peuvent être exacerbées par les IC centiles.TL; DR : Dans certains cas, les estimations de l'IC de bootstrap centile peuvent fonctionner correctement, mais si certaines hypothèses ne se vérifient pas, l'IC percentile peut être le pire choix, avec le bootstrap empirique / de base le pire suivant. D'autres estimations d'IC bootstrap peuvent être plus fiables, avec une meilleure couverture. Tout peut être problématique. La consultation des tracés de diagnostic, comme toujours, permet d'éviter les erreurs potentielles encourues en acceptant simplement la sortie d'une routine logicielle.
Configuration de bootstrap
Suivant généralement la terminologie et les arguments de la réf. 1 , nous avons un échantillon de données tirée des variables aléatoires indépendantes et identiquement distribuées partageant une fonction de distribution cumulative . La fonction de distribution empirique (EDF) construit à partir de l'échantillon de données est . Nous nous intéressons à une caractéristique de la population, estimée par une statistique dont la valeur dans l'échantillon est . Nous aimerions savoir dans quelle mesure estime , par exemple, la distribution de .Y i F F θ T t T θ ( T - θ )y1,...,yn Yi F F^ θ T t T θ (T−θ)
Le bootstrap non paramétrique utilise l'échantillonnage de l'EDF pour imiter l'échantillonnage de , en prenant échantillons chacun de taille avec remplacement de . Les valeurs calculées à partir des échantillons de bootstrap sont indiquées par "*". Par exemple, la statistique calculée sur l'échantillon de bootstrap j fournit une valeur .FRnY iTT * jF^ F R n yi T T∗j
CI bootstrap empiriques / basiques contre centiles
Le bootstrap empirique / de base utilise la distribution de parmi les échantillons bootstrap de pour estimer la distribution de au sein de la population décrite par lui-même. Ses estimations de CI sont donc basées sur la distribution de , où est la valeur de la statistique dans l'échantillon d'origine.R F ( T - θ ) F ( T * - t ) t(T∗−t) R F^ (T−θ) F (T∗−t) t
Cette approche est basée sur le principe fondamental du bootstrap ( réf. 3 ):
Le bootstrap centile utilise à la place les quantiles des valeurs eux-mêmes pour déterminer l'IC. Ces estimations peuvent être très différentes s'il y a un biais ou un biais dans la distribution de . ( T - θ )T∗j (T−θ)
Supposons qu'il existe un biais observé tel que: ˉ T ∗ = t + B ,B
où est la moyenne de . Pour être concret, supposons que les 5e et 95e centiles des sont exprimés par et , où est la moyenne sur les échantillons bootstrap et sont chacun positifs et potentiellement différents pour permettre l'inclinaison. Les estimations basées sur le percentile du 5e et du 95e IC seraient directement fournies respectivement par:T ∗ j T ∗ j ˉ T ∗-δ1 ˉ T ∗+δ2 ˉ T ∗δ1,δ2T¯∗ T∗j T∗j T¯∗−δ1 T¯∗+δ2 T¯∗ δ1,δ2
Les estimations de l'IC du 5e et du 95e centile par la méthode de bootstrap empirique / de base seraient respectivement ( réf. 1 , éq. 5.6, page 194):
Ainsi, les IC basés sur le centile se trompent à la fois et inversent les directions des positions potentiellement asymétriques des limites de confiance autour d'un centre doublement biaisé . Les CI centiles issus du bootstrap dans un tel cas ne représentent pas la distribution de .(T−θ)
Ce comportement est bien illustré sur cette page , pour amorcer une statistique si négativement biaisée que l'estimation originale de l'échantillon est inférieure aux IC à 95% selon la méthode empirique / de base (qui inclut directement la correction de biais appropriée). Les IC à 95% basés sur la méthode du centile, disposés autour d'un centre doublement négatif, sont en fait tous les deux inférieurs même à l'estimation ponctuelle négativement biaisée de l'échantillon d'origine!
Le bootstrap percentile ne doit-il jamais être utilisé?
Cela pourrait être une surestimation ou un euphémisme, selon votre point de vue. Si vous pouvez documenter un biais et un biais minimaux, par exemple en visualisant la distribution de avec des histogrammes ou des diagrammes de densité, le bootstrap centile devrait fournir essentiellement le même CI que le CI empirique / de base. Celles-ci sont probablement toutes deux meilleures que la simple approximation normale de l'IC.(T∗−t)
Aucune des deux approches, cependant, ne fournit la précision de couverture qui peut être fournie par d'autres approches de bootstrap. Efron a reconnu dès le début les limites potentielles des IC centiles, mais a déclaré: "La plupart du temps, nous nous contenterons de laisser parler les degrés de succès variables des exemples." ( Réf.2 , page 3)
Des travaux ultérieurs, résumés par exemple par DiCiccio et Efron ( Réf. 4 ), ont développé des méthodes qui "s'améliorent d'un ordre de grandeur sur la précision des intervalles standard" fournies par les méthodes empiriques / basiques ou centiles. Ainsi, on pourrait faire valoir que ni les méthodes empiriques / de base ni les méthodes de centile ne devraient être utilisées, si vous vous souciez de la précision des intervalles.
Dans les cas extrêmes, par exemple en échantillonnant directement à partir d'une distribution log-normale sans transformation, aucune estimation d'IC bootstrap ne peut être fiable, comme l' a noté Frank Harrell .
Qu'est-ce qui limite la fiabilité de ces CI et d'autres CI amorcés?
Plusieurs problèmes peuvent rendre les CI amorcés peu fiables. Certains s'appliquent à toutes les approches, d'autres peuvent être atténués par des approches autres que les méthodes empiriques / de base ou centiles.
La première, générale, question est de savoir comment bien la distribution empirique représente la distribution de la population . Si ce n'est pas le cas, aucune méthode d'amorçage ne sera fiable. En particulier, l'amorçage pour déterminer tout élément proche des valeurs extrêmes d'une distribution peut être peu fiable. Cette question est discutée ailleurs sur ce site, par exemple ici et ici . Les quelques valeurs discrètes disponibles dans les queues de pour un échantillon particulier pourraient ne pas très bien représenter les queues d'un continu . Un cas extrême mais illustratif essaie d'utiliser le bootstrap pour estimer la statistique d'ordre maximum d'un échantillon aléatoire à partir d'un uniformeF^ F F^ F U[0,θ] distribution, comme expliqué bien ici . Notez que les IC à 95% ou 99% amorcés sont eux-mêmes à la queue d'une distribution et pourraient donc souffrir d'un tel problème, en particulier avec de petits échantillons.
D' autre part, rien ne garantit que l' échantillonnage d'une quantité quelconque de aura la même distribution que ce prélèvement de . Pourtant, cette hypothèse sous-tend le principe fondamental du bootstrap. Les quantités possédant cette propriété souhaitable sont appelées pivots . Comme AdamO l'explique :F^ F
Par exemple, s'il y a un biais, il est important de savoir que l'échantillonnage de autour de est le même que l'échantillonnage de autour de . Et c'est un problème particulier dans l'échantillonnage non paramétrique; comme Réf. 1 le dit à la page 33:F θ F^ t
Donc, le mieux qui soit généralement possible est une approximation. Cependant, ce problème peut souvent être résolu de manière adéquate. Il est possible d'estimer à quel point une quantité échantillonnée est à pivot, par exemple avec des graphiques à pivot comme recommandé par Canty et al . Ceux-ci peuvent montrer comment les distributions d'estimations bootstrapées varient avec , ou dans quelle mesure une transformation fournit une quantité qui est pivot. Les méthodes permettant d'améliorer les IC amorcés peuvent essayer de trouver une transformation telle que soit plus proche du pivot pour estimer les IC dans l'échelle transformée, puis revenir à l'échelle d'origine.(T∗−t) t h (h(T∗)−h(t)) h (h(T∗)−h(t))
LaBCa α n−1 n−0.5 T∗j utilisé par ces méthodes plus simples.
boot.ci()
fonction fournit des CI bootstrap étudiés (appelés «bootstrap- t » par DiCiccio et Efron ) et des CI (biais corrigé et accéléré, où l '«accélération» traite de l'inclinaison) qui sont «précis au second ordre» en ce que la différence entre les la couverture souhaitée et obtenue (par exemple, IC à 95%) est de l'ordre de , par rapport à la précision du premier ordre uniquement (ordre de ) pour les méthodes empiriques / de base et centiles ( Ref 1 , pp 212-3;. . Ref 4 ). Ces méthodes, cependant, nécessitent de garder une trace des variances au sein de chacun des échantillons , pas seulement les valeurs individuelles deDans les cas extrêmes, il peut être nécessaire de recourir au bootstrap dans les échantillons bootstrap eux-mêmes pour fournir un ajustement adéquat des intervalles de confiance. Ce "Double Bootstrap" est décrit dans la section 5.6 de la réf. 1 , avec d'autres chapitres de ce livre suggérant des moyens de minimiser ses exigences de calcul extrêmes.
Davison, AC et Hinkley, DV Bootstrap Methods and their Application, Cambridge University Press, 1997 .
Efron, B. Méthodes Bootstrap: Un autre regard sur le jacknife, Ann. Statist. 7: 1-26, 1979 .
Fox, J. et Weisberg, S. Bootstrapping regression models in R. An Annex to An R Companion to Applied Regression, Second Edition (Sage, 2011). Révision au 10 octobre 2017 .
DiCiccio, TJ et Efron, B. Intervalles de confiance Bootstrap. Stat. Sci. 11: 189-228, 1996 .
Canty, AJ, Davison, AC, Hinkley, DV et Ventura, V. Diagnostics et remèdes Bootstrap. Pouvez. J. Stat. 34: 5-27, 2006 .
la source
Quelques commentaires sur une terminologie différente entre le MIT / Rice et le livre d'Efron
Je pense que la réponse d'EdM fait un travail fantastique en répondant à la question originale des OP, en relation avec les notes de cours du MIT. Cependant, le PO cite également le livre d'Efrom (2016) Computer Age Statistical Inference, qui utilise des définitions légèrement différentes, ce qui peut prêter à confusion.
Chapitre 11 - Exemple de corrélation d'échantillon de score d'élève
Cet exemple utilise un échantillon dont le paramètre d'intérêt est la corrélation. Dans l'échantillon, il est observé comme . Efron effectue ensuite réplications bootstrap non paramétriques pour la corrélation de l'échantillon de score des élèves et trace l'histogramme des résultats (page 186)B=2000 θ *θ^=0.498 B=2000 θ^∗
Bootstrap à intervalle standard
Il définit ensuite le bootstrap d'intervalle standard suivant :
Pour une couverture de 95% où est considéré comme l'erreur standard de bootstrap: , également appelé écart-type empirique des valeurs de bootstrap. sebootse^ seboot
Écart type empirique des valeurs de bootstrap:
Soit l'échantillon d'origine soit et l'exemple d'amorçage soit . Chaque échantillon bootstrap fournit une réplication bootstrap de la statistique d'intérêt: x * = ( x * 1 , x * 2 , . . . , x * n ) b θ * b = s ( x * b ) pour b = 1 , 2 , . . . , Bx=(x1,x2,...,xn) x∗=(x∗1,x∗2,...,x∗n) b
L'estimation bootstrap résultante de l'erreur standard pour estθ^
θ *=Σ B b = 1 θ *b
Cette définition semble différente de celle utilisée dans la réponse d'EdM:
Bootstrap percentile
Ici, les deux définitions semblent alignées. Depuis Efron page 186:
Dans cet exemple, ce sont respectivement 0,118 et 0,758.
Citant EdM:
Comparaison de la méthode standard et centile telle que définie par Efron
Sur la base de ses propres définitions, Efron se donne beaucoup de mal pour affirmer que la méthode du centile est une amélioration. Pour cet exemple, le CI résultant est:
Conclusion
Je dirais que la question initiale du PO est alignée sur les définitions fournies par EdM. Les modifications apportées par l'OP pour clarifier les définitions sont alignées sur le livre d'Efron et ne sont pas exactement les mêmes pour Empirical vs Standard bootstrap CI.
Les commentaires sont les bienvenus
la source
boot.ci()
, en ce sens qu'ils sont basés sur une approximation normale des erreurs et sont forcés d'être symétriques par rapport à l'estimation d'échantillon de . C'est différent des CI «empiriques / de base», qui, comme les CI «centiles», permettent l'asymétrie. J'ai été surpris de la grande différence entre les IC «empiriques / basiques» et les IC «centiles» dans la gestion du biais; Je n'y avais pas beaucoup réfléchi avant d'avoir essayé de répondre à cette question.boot.ci()
: "Les intervalles normaux utilisent également la correction du biais de bootstrap." Cela semble donc être une différence par rapport au "bootstrap à intervalle standard" décrit par Efron.Je suis votre ligne directrice: "Vous cherchez une réponse tirée de sources crédibles et / ou officielles."
Le bootstrap a été inventé par Brad Efron. Je pense qu'il est juste de dire qu'il est un statisticien distingué. C'est un fait qu'il est professeur à Stanford. Je pense que cela rend ses opinions crédibles et officielles.
Je crois que Computer Age Statistical Inference d'Efron et Hastie est son dernier livre et devrait donc refléter ses vues actuelles. De la p. 204 (11.7, notes et détails),
Si vous lisez le chapitre 11, "Intervalles de confiance du bootstrap", il donne 4 méthodes pour créer des intervalles de confiance du bootstrap. La seconde de ces méthodes est (11.2) la méthode centile. Les troisième et quatrième méthodes sont des variantes de la méthode centile qui tentent de corriger ce qu'Efron et Hastie décrivent comme un biais dans l'intervalle de confiance et pour lesquelles elles donnent une explication théorique.
En passant, je ne peux pas décider s'il y a une différence entre ce que les gens du MIT appellent CI bootstrap empirique et CI centile. J'ai peut-être un pet de cerveau, mais je vois la méthode empirique comme la méthode centile après avoir soustrait une quantité fixe. Cela ne devrait rien changer. Je suis probablement en train de mal lire, mais je serais vraiment reconnaissant si quelqu'un pouvait expliquer comment je comprenais mal son texte.
Quoi qu'il en soit, la principale autorité ne semble pas avoir de problème avec les CI centiles. Je pense également que son commentaire répond aux critiques du bootstrap CI qui sont mentionnées par certaines personnes.
AJOUT MAJEUR
Premièrement, après avoir pris le temps de digérer le chapitre et les commentaires du MIT, la chose la plus importante à noter est que ce que le MIT appelle le bootstrap empirique et le bootstrap centile diffèrent - Le bootstrap empirique et le bootstrap centile seront différents en ce qu'ils appellent l'empirique bootstrap sera l'intervalle tandis que le centile bootstrap aura l'intervalle de confiance . Je dirais en outre que selon Efron-Hastie, le bootstrap centile est plus canonique. La clé de ce que le MIT appelle le bootstrap empirique est de regarder la distribution de . Mais pourquoi , pourquoi pas[x∗¯−δ.1,x∗¯−δ.9] [x∗¯−δ.9,x∗¯−δ.1]
δ=x¯−μ x¯−μ μ−x¯ . Tout aussi raisonnable. De plus, le delta pour le deuxième ensemble est le bootstrap de percentile souillé!. Efron utilise le centile et je pense que la distribution des moyens réels devrait être la plus fondamentale. J'ajouterais qu'en plus de l'Efron et Hastie et du papier d'Efron de 1979 mentionné dans une autre réponse, Efron a écrit un livre sur le bootstrap en 1982. Dans les 3 sources il y a des mentions de bootstrap percentile, mais je ne trouve aucune mention de ce les gens du MIT appellent le bootstrap empirique. De plus, je suis presque sûr qu'ils calculent le bootstrap de centile de manière incorrecte. Ci-dessous se trouve un carnet R que j'ai écrit.
Commments on the MIT reference Commençons par mettre les données MIT dans R. J'ai fait un simple copier-coller de leurs échantillons de bootstrap et les ai enregistrés dans boot.txt.
Masquer orig.boot = c (30, 37, 36, 43, 42, 43, 43, 46, 41, 42) boot = read.table (file = "boot.txt") signifie = as.numeric (lapply (boot , signifie)) # lapply crée des listes, pas des vecteurs. Je l'utilise TOUJOURS pour les trames de données. mu = moyenne (bottine d'origine) del = tri (signifie - mu) # les différences mu signifie del Et plus loin
Masquer mu-sort (del) [3] mu-sort (del) [18] Nous obtenons donc la même réponse qu'eux. En particulier, j'ai le même 10e et 90e centile. Je tiens à souligner que la plage du 10e au 90e centile est 3. C'est la même chose que le MIT.
Quels sont mes moyens?
Masquer signifie trier (signifie) J'obtiens des moyens différents. Point important - mes 10e et 90e signifient 38,9 et 41,9. C'est ce à quoi je m'attendrais. Ils sont différents parce que je considère des distances de 40,3, donc j'inverse l'ordre de soustraction. Notez que 40,3-38,9 = 1,4 (et 40,3 - 1,6 = 38,7). Donc, ce qu'ils appellent le bootstrap centile donne une distribution qui dépend des moyens réels que nous obtenons et non des différences.
Point clé Le bootstrap empirique et le bootstrap centile seront différents en ce que ce qu'ils appellent le bootstrap empirique sera l'intervalle [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] [x ∗ ¯ − δ.1, x ∗ ¯ − δ.9] tandis que le bootstrap percentile aura l'intervalle de confiance [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1] [x ∗ ¯ − δ.9, x ∗ ¯ − δ.1 ]. En règle générale, ils ne devraient pas être si différents. J'ai mes réflexions sur ce que je préférerais, mais je ne suis pas la source définitive que OP demande. Expérience de réflexion - les deux devraient-ils converger si la taille de l'échantillon augmente. Notez qu'il y a 210210 échantillons possibles de taille 10. N'allons pas fou, mais qu'en est-il si nous prenons 2000 échantillons - une taille généralement considérée comme suffisante.
Masquer set.seed (1234) # boot.2k reproductible = matrice (NA, 10,2000) pour (i in c (1: 2000)) {boot.2k [, i] = sample (orig.boot, 10, replace = T)} mu2k = sort (appliquer (boot.2k, 2, moyenne)) Regardons mu2k
Masquer le résumé (mu2k) moyenne (mu2k) -mu2k [200] moyenne (mu2k) - mu2k [1801] Et les valeurs réelles-
Masquer mu2k [200] mu2k [1801] Alors maintenant, ce que le MIT appelle le bootstrap empirique donne un intervalle de confiance à 80% de [, 40,3 -1,87,40,3 +1,64] ou [38,43,41.94] et leur mauvaise distribution en centile donne [38,5, 42]. Cela a bien sûr un sens car la loi des grands nombres dira dans ce cas que la distribution devrait converger vers une distribution normale. Incidemment, cela est discuté dans Efron et Hastie. La première méthode qu'ils donnent pour calculer l'intervalle de bootstrap est d'utiliser mu = / - 1,96 sd. Comme ils le font remarquer, pour un échantillon suffisamment grand, cela fonctionnera. Ils donnent ensuite un exemple pour lequel n = 2000 n'est pas assez grand pour obtenir une distribution approximativement normale des données.
Conclusions Tout d'abord, je veux énoncer le principe que j'utilise pour décider des questions de dénomination. «C'est mon parti que je peux pleurer si je le veux.» Bien qu'énoncé à l'origine par Petula Clark, je pense qu'il applique également des structures de dénomination. Donc, avec une déférence sincère pour le MIT, je pense que Bradley Efron mérite de nommer les différentes méthodes d'amorçage comme il le souhaite. Qu'est-ce qu'il fait ? Je ne trouve aucune mention dans Efron de «bootstrap empirique», juste un centile. Je suis donc humblement en désaccord avec Rice, MIT, et al. Je voudrais également souligner que selon la loi des grands nombres, telle qu'utilisée dans la conférence du MIT, empirique et centile devraient converger vers le même nombre. À mon goût, le centile bootstrap est intuitif, justifié et ce que l'inventeur du bootstrap avait en tête. J'ajouterais que j'ai pris le temps de le faire juste pour ma propre édification, pas autre chose. En particulier, Je n'ai pas écrit Efron, ce qui est probablement ce que OP devrait faire. Je suis très disposé à me corriger.
la source
Comme déjà indiqué dans les réponses précédentes, le "bootstrap empirique" est appelé "bootstrap de base" dans d'autres sources (y compris la fonction R boot.ci ), qui est identique au "bootstrap centile" retourné à l'estimation ponctuelle. Venables et Ripley écrivent ("Modern Applied Statstics with S", 4e éd., Springer, 2002, p. 136):
Dans les deux cas d'utilisation, le bootstrap BCa a la probabilité de couverture la plus élevée parmi les méthodes de bootstrap, et le bootstrap percentile a une probabilité de couverture plus élevée que le bootstrap de base / empirique.
la source