Supposons que je dispose d’un ensemble d’échantillons de données d’une distribution inconnue ou complexe et que je veuille effectuer une inférence sur une statistique des données. Mon inclinaison par défaut est de simplement générer un tas d'échantillons bootstrap avec le remplacement, et calculer ma statistique sur chaque échantillon bootstrap pour créer une distribution estimée pour .
Quels sont les exemples où c'est une mauvaise idée?
Par exemple, si j’essaie d’utiliser les données de la série chronologique d’amorçage (par exemple, pour vérifier si j’ai une autocorrélation significative), l’échec de la réalisation de ce bootstrap échouerait naïvement. Le bootstrap naïf décrit ci-dessus (générer le ème point de donnée de la série d'échantillons du boot boot par échantillonnage avec remplacement de ma série d'origine) serait (je pense) déconseillé, car il ignore la structure dans ma série chronologique d'origine, et nous Obtenez des techniques d'amorçage plus sophistiquées comme le bootstrap en bloc.
En d'autres termes, qu'y a-t-il dans le bootstrap à part "l'échantillonnage avec remplacement"?
Réponses:
Si la quantité d'intérêt, généralement fonctionnelle d'une distribution, est raisonnablement fluide et que vos données sont idiates, vous êtes généralement dans un territoire assez sûr. Bien entendu, le bootstrap fonctionnera également dans d’autres circonstances.
Ce que cela signifie pour le bootstrap "d'échouer"
En gros, l'objectif du bootstrap est de construire une distribution d'échantillonnage approximative pour la statistique d'intérêt. Il ne s'agit pas d'une estimation réelle du paramètre. Donc, si la statistique d’intérêt (sous certains et de centrage) est et dans la distribution, nous aimerions que notre distribution bootstrap soit: converger vers la distribution de . Si nous ne l'avons pas, nous ne pouvons pas nous fier aux inférences.X^n X^n→X∞ X∞
L' exemple canonique du moment où le bootstrap peut échouer, même dans un cadre iid, consiste à essayer d'approximer la distribution d'échantillonnage d'une statistique d'ordre extrême. Vous trouverez ci-dessous une brève discussion.
Statistique d'ordre maximum d'un échantillon aléatoire d'une distributionU[0,θ]
Soit une suite de variables aléatoires uniformes sur i . Soit . La distribution de est (Notez que par un argument très simple, cela montre également que en probabilité, et même, presque sûrement , si les variables aléatoires sont toutes définies sur le même espace.)X1,X2,… [0,θ] X(n)=max1≤k≤nXk X(n)
Un calcul élémentaire donne ou, en d'autres termes, converge dans la distribution en une variable aléatoire exponentielle de moyenne .
Maintenant, nous formons une estimation bootstrap (naïve) de la distribution de en rééchantillonnant avec remplacement pour obtenir et en utilisant la distribution de conditionnel à .n(θ−X(n)) X1,…,Xn X⋆1,…,X⋆n n(X(n)−X⋆(n)) X1,…,Xn
Mais que avec une probabilité de , et que la distribution bootstrap a une masse de points nulle même asymptotiquement malgré le fait que la distribution limite réelle est continue.X⋆(n)=X(n) 1−(1−1/n)n→1−e−1
Plus explicitement, bien que la vraie distribution limite soit exponentielle avec mean , la distribution bootstrap limite place une masse de points à zéro de taille indépendamment de la valeur réelle de . En prenant suffisamment grand, nous pouvons rendre la probabilité de la vraie distribution limite arbitraire petite pour tout intervalle fixe , mais le bootstrap signalera ( toujours !) Qu'il existe au moins une probabilité de 0,632 dans cet intervalle! À partir de cela, il devrait être clair que le bootstrap peut se comporter de manière arbitrairement mauvaise dans ce contexte.θ 1−e−1≈0.632 θ θ [0,ε)
En résumé, le démarrage échoue (misérablement) dans ce cas. Les choses ont tendance à se gâter lorsque l'on traite des paramètres situés au bord de l'espace des paramètres.
Un exemple tiré d'un échantillon de variables aléatoires normales
Il existe d'autres exemples similaires d'échec du bootstrap dans des circonstances étonnamment simples.
Prenons un exemple de où l’espace de paramètre pour est limité à . Le MLE dans ce cas est . Encore une fois, nous utilisons l’estimation de bootstrap . De nouveau, on peut montrer que la distribution de (conditionnée à l'échantillon observé) ne converge pas vers la même distribution limite que .X1,X2,… N(μ,1) μ [0,∞) X^n=max(X¯,0) X^⋆n=max(X¯⋆,0) n−−√(X^⋆n−X^n) n−−√(X^n−μ)
Matrices échangeables
L’un des exemples les plus dramatiques est peut-être celui d’une matrice échangeable. Soit un tableau de variables aléatoires tel que, pour chaque paire de matrices de permutation et , les tableaux et ont la même distribution conjointe. Autrement dit, la permutation des lignes et des colonnes de conserve l’invariant de la distribution. (Vous pouvez penser à un modèle à effets aléatoires à deux voies avec une observation par cellule, par exemple, bien que le modèle soit beaucoup plus général.)Y=(Yij) P Q Y PYQ Y
Supposons que nous voulions estimer un intervalle de confiance pour la moyenne ( en raison de l'hypothèse de l' interchangeabilité décrit ci - dessus les moyens de tous les les cellules doivent être les mêmes).μ=E(Yij)=E(Y11)
McCullagh (2000) a examiné deux manières différentes (naïves) d’amorcer un tel tableau. La variance asymptotique de la moyenne d'échantillon n'est pas correcte pour aucun d'entre eux. Il examine également quelques exemples de tableau et de régression linéaire échangeables dans un sens.
Références
Malheureusement, le sujet étant non trivial, aucun d’entre eux n’est particulièrement facile à lire.
la source
Le livre suivant contient un chapitre (Ch.9) consacré à "En cas d'échec du démarrage avec des solutions pour échecs":
MR Chernick, Méthodes Bootstrap. Guide pour les praticiens et les chercheurs , 2e éd. Hoboken NJ: Wiley-Interscience, 2008.
Les sujets sont:
la source
Le bootstrap naïf dépend de la taille de l'échantillon, de sorte que le CDF empirique pour les données est une bonne approximation du "vrai" CDF. Cela garantit que l’échantillonnage à partir du CDF empirique est très semblable à celui du "vrai" CDF. Le cas extrême est celui où vous n’avez échantillonné qu’un seul point de données - l’amorçage ne donne rien ici. Cela deviendra de plus en plus inutile à l'approche de ce cas dégénéré.
Le démarrage naïf n'échouera pas nécessairement dans l'analyse des séries chronologiques (bien que cela puisse s'avérer inefficace) - si vous modélisez la série à l'aide de fonctions de base de temps continu (telles que les polynômes de Legendre) pour un composant de tendance, et de fonctions sinus et cosinus de temps continu pour les fonctions cycliques. composants (plus le terme d'erreur de bruit normal). Ensuite, vous indiquez les périodes que vous avez échantillonnées dans la fonction de probabilité. Pas de catastrophe pour démarrer ici.
Toute corrélation automatique ou modèle ARIMA a une représentation dans ce format ci-dessus - ce modèle est simplement plus facile à utiliser et je pense comprendre et interpréter (cycles faciles à comprendre pour les fonctions sinus et cosinus, coefficients difficiles à comprendre pour un modèle ARIMA). Par exemple, la fonction d'auto-corrélation est la transformée de Fourier inverse du spectre de puissance d'une série temporelle.
la source