La méthode bootstrap a connu une grande diffusion ces dernières années, je l'utilise également beaucoup, notamment parce que le raisonnement derrière est assez intuitif.
Mais c'est une chose que je ne comprends pas. Pourquoi Efron a choisi d'effectuer un rééchantillonnage avec remplacement au lieu de simplement sous-échantillonner en incluant ou en excluant au hasard des observations uniques?
Je pense que le sous-échantillonnage aléatoire a une très bonne qualité, qui représente idéalement la situation de la vie réelle dans laquelle les observations que nous avons dans notre étude sont un sous-ensemble d'une population hypothétique. Je ne vois pas l'avantage d'avoir multiplié les observations lors du rééchantillonnage. Dans un contexte réel, aucune observation n'est semblable à une autre, en particulier pour les situations multivariées complexes.
la source
Réponses:
Une façon de comprendre ce choix est de penser que l'échantillon en question est la meilleure représentation que vous avez de la population sous-jacente. Il se peut que vous n'ayez plus la population entière à échantillonner, mais vous avez cette représentation particulière de la population. Un rééchantillonnage vraiment aléatoire à partir de cette représentation de la population signifie que vous devez échantillonner avec remplacement, sinon votre échantillonnage ultérieur dépendra des résultats de votre échantillonnage initial. La présence d'un cas répété dans un échantillon bootstrap particulier représente des membres de la population sous-jacente qui ont des caractéristiques proches de celles de ce cas répété particulier. Comme vous le suggérez, des approches à laisser ou à laisser, comme vous le suggérez, peuvent également être utilisées, mais il s'agit de validation croisée plutôt que d'amorçage.
Je pense que cela met à peu près en d'autres termes le commentaire de @kjetil_b_halvorsen
la source