Ma compréhension de l'approche bootstrap est basée sur le cadre de Wasserman (presque mot pour mot):
Soit une statistique ( est l'échantillon iid tiré de la distribution ). Supposons que nous voulons estimer - la variance de donné .
L'approche bootstrap suit ces deux étapes:
Estimer avec , où est la fonction de distribution empirique.
Approximative en utilisant la simulation.
Dois-je bien comprendre que la simulation de l'étape 2 pourrait être remplacée par un calcul précis, sauf qu'elle est irréalisable pour des valeurs pratiquement utiles de ? Voici ma pensée: exactement égal à une intégrale de . est une fonction pas à pas, avec un nombre fini de étapes; on peut donc ignorer tous les points sauf les points où a une masse non nulle. Donc l'intégrale est précisément égale à une somme de termes. Une fois que dépasse 14, un simple calcul direct est impossible.
Mais tout ce que nous essayons de faire est de calculer une intégrale. Pourquoi ne pas remplacer la simulation d'amorçage par force brute par l'un des algorithmes numériques traditionnels pour prendre des intégrales? Cela n'entraînerait-il pas une précision beaucoup plus élevée pour le même temps de calcul?
Même quelque chose d'aussi simple que de diviser l'espace d'échantillonnage en sections (peut-être avec des volumes plus petits où la statistique d'échantillon varie plus rapidement) et d'estimer la valeur de la statistique dans chaque section en utilisant le point médian, semble être meilleur que le bootstrap aveugle.
Qu'est-ce que je rate?
Peut-être que le bootstrap fonctionne si bien et si rapidement qu'il n'est pas nécessaire de faire quelque chose de plus compliqué? (Par exemple, si la perte de précision à l'étape 1 est beaucoup plus importante qu'à l'étape 2, les améliorations à l'étape 2 sont plutôt inutiles.)
La simulation la plus souvent utilisée en bootstrap pour le calcul numérique de la variance pourrait en principe être remplacée par un calcul exact ou une approximation alternative de l'intégrale. Il faut cependant être conscient qu'une simulation "par force brute" comme alternative aux autres techniques d'intégration numérique est en fait une bonne idée. La réponse à la question "Cela n'entraînerait-il pas une précision beaucoup plus élevée pour le même temps de calcul?" est pas .
Mais pourquoi en est-il ainsi? Le fait est que l’intégration numérique standard dans les dimensions élevées s’adapte mal à la dimension. Si vous devez diviser l'espace en points de grille réguliers, disons avec points de grille dans chaque coordonnée, vous vous retrouvez avec points de grille au total. L'approximation obtenue par simulation (connue sous le nom d'intégration Monte Carlo) peut être considérée comme un choix intelligent d'évaluations de fonctions. Au lieu d'évaluations de grille chronophages, nous évaluons uniquement la fonction que nous intégrons aux points sélectionnés. L'erreur est, en raison de la nature aléatoire des points sélectionnés, aléatoire, mais peut généralement être contrôlée par le théorème de la limite centrale.r rn
Il existe d'autres méthodes telles que l'intégration quasi-Monte Carlo, que je ne connais pratiquement pas, qui font des évaluations de fonctions intelligentes basées sur des nombres quasi-aléatoires au lieu des nombres pseudo-aléatoires que nous utilisons pour l'intégration Monte Carlo ordinaire.
la source