Détermination de la taille de l'échantillon nécessaire pour la méthode bootstrap / Méthode proposée

33

Je sais que c’est un sujet brûlant où personne ne peut vraiment donner une réponse simple. Néanmoins, je me demande si l'approche suivante ne pourrait pas être utile.

La méthode bootstrap n'est utile que si votre échantillon suit plus ou moins (lire exactement) la même distribution que la population d'origine. Afin d’en être certain, vous devez augmenter la taille de votre échantillon. Mais qu'est-ce qui est assez grand?

Si ma prémisse est correcte, vous rencontrez le même problème lorsque vous utilisez le théorème de la limite centrale pour déterminer la moyenne de la population. Ce n'est que lorsque la taille de votre échantillon est suffisante que vous pouvez être certain que la population de la moyenne de votre échantillon est normalement répartie (autour de la moyenne de la population). En d'autres termes, vos échantillons doivent bien représenter votre population (répartition). Mais encore une fois, qu'est-ce qui est assez grand?

Dans mon cas (processus administratifs: temps nécessaire pour répondre à une demande par rapport à une demande), j'ai une population avec une distribution multimodale (toutes les demandes achevées en 2011), dont je suis à 99% certain qu'elle l'est encore moins. normalement réparties que la population (toutes les demandes finies entre aujourd'hui et un jour, idéalement, cette période est aussi petite que possible). Je souhaite effectuer des recherches.

Ma population de 2011 est composée d'un nombre suffisant d'unités pour faire échantillons d'une taille d'échantillon . Je choisis une valeur de , supposons ( ). Maintenant, j'utilise l'essai et l'erreur pour déterminer une bonne taille d'échantillon. Je prends un et je vérifie si la population moyenne de mon échantillon est normalement distribuée en utilisant Kolmogorov-Smirnov. Si tel est le cas, je répète les mêmes étapes mais avec une taille d'échantillon de , sinon, répétez avec une taille d'échantillon de (etc.).xnx10x=10n=504060

Après un moment, je conclus quen=45 est la taille minimale absolue de l’échantillon pour obtenir une représentation plus ou moins bonne de ma population de 2011. Étant donné que je connais ma population d'intérêt (toutes les demandes qui sont finies entre le jour présent et un jour dans le passé) a moins de variance, je peux utiliser en toute sécurité une taille d'échantillon de pour l'initialisation. (Indirectement, le n = 45 détermine la taille de mon intervalle de temps: le temps nécessaire pour terminer les 45 demandes.)n=45n=4545

Ceci est, en bref, mon idée. Mais comme je ne suis pas un statisticien mais un ingénieur dont les leçons de statistiques ont eu lieu à l'époque, je ne peux pas exclure la possibilité que je produise beaucoup de déchets :-). Qu'en pensez-vous? Si ma prémisse est logique, dois-je choisir un supérieur à 10 ou inférieur? En fonction de vos réponses (dois-je me sentir gêné ou non? :-) Je posterai quelques idées de discussion supplémentaires.x10

réponse à la première réponse Merci de votre réponse, votre réponse m'a été très utile, en particulier les liens du livre.
Mais je crains que, dans ma tentative de donner des informations, j'ai complètement obscurci ma question. Je sais que les échantillons bootstrap prennent en charge la distribution de l'échantillon de population. Je te suis complètement mais ...

Votre échantillon de population d'origine doit être suffisamment important pour être raisonnablement certain que la distribution de votre échantillon de population correspond (égale) à la distribution "réelle" de la population.

Il s’agit simplement d’une idée sur la façon de déterminer la taille de votre échantillon initial pour être raisonnablement certain que la distribution de l’échantillon correspond à la distribution de la population.

Supposons que vous ayez une distribution de population bimodale et que l'un des deux soit beaucoup plus grand que l'autre. Si la taille de votre échantillon est de 5, il est fort probable que les 5 unités aient une valeur très proche du sommet supérieur (la possibilité de tirer au hasard une unité est la plus grande). Dans ce cas, la répartition de votre échantillon sera monomodale.

Avec une taille d'échantillon de cent, la probabilité que votre distribution d'échantillon soit également bimodale est beaucoup plus grande! Le problème avec l'initialisation est que vous n'avez qu'un seul échantillon (et que vous construisez plus loin sur cet exemple). Si la distribution de l'échantillon ne correspond vraiment pas à la distribution de la population, vous êtes en difficulté. Ceci est juste une idée pour réduire au maximum les risques de "mauvaise distribution d'échantillons" sans avoir à rendre la taille de votre échantillon infiniment grande.

Siegfried
la source

Réponses:

38

Je me suis intéressé à cette question parce que j’ai vu le mot bootstrap et que j’ai écrit des livres sur le bootstrap. Aussi, les gens demandent souvent "Combien d’échantillons bootstrap ai-je besoin pour obtenir une bonne approximation de Monte Carlo du résultat bootstrap?" La réponse que je suggère à cette question est de continuer à augmenter la taille jusqu'à la convergence. Aucun numéro ne convient à tous les problèmes.

nnnde l'échantillon d'origine. Que le principe du bootstrap soit valable ou non ne dépend d'aucun échantillon individuel "ayant l'air d'être représentatif de la population". Cela dépend de ce que vous estimez et de certaines propriétés de la distribution de la population (par exemple, cela fonctionne pour les moyennes d'échantillonnage avec des distributions de population ayant des variances finies, mais pas lorsqu'elles ont des variances infinies). Cela ne fonctionnera pas pour estimer les extrêmes quelle que soit la répartition de la population.

La théorie du bootstrap consiste à montrer la cohérence de l'estimation. Donc, on peut montrer en théorie que cela fonctionne pour de grands échantillons. Mais cela peut aussi fonctionner en petits échantillons. Je l'ai vu travailler pour l'estimation du taux d'erreur de classification particulièrement bien dans les échantillons de petite taille, tels que 20 pour les données bivariées.

Maintenant, si la taille de l'échantillon est très petite - disons 4 -, le bootstrap peut ne pas fonctionner simplement parce que l'ensemble d'échantillons bootstrap possibles n'est pas assez riche. Dans mon livre ou le livre de Peter Hall, cette question d'un échantillon trop petit est discutée. Mais ce nombre d’échantillons d’amorçage distincts augmente très rapidement. Ce n’est donc pas un problème, même pour des échantillons de taille aussi petite que 8. Vous pouvez consulter ces références:

Michael R. Chernick
la source
3
Existe-t-il un test standard à exécuter pour vérifier si (par exemple 4 échantillons) n'est pas suffisant? J'ai un jeu de données pour lequel je calcule des intervalles de confiance bootstrapped pour la moyenne, mais certaines personnes ont très peu de points de données (<8 dans certains cas). Mon instinct me dit que je devrais ignorer les individus qui ont moins de n points de données, mais comment puis-je définir ce seuil n? J'espérais trouver une valeur seuil généralement acceptée (comme dans le cas où 6 ou 7 est le seuil arbitraire pour le nombre d'échantillons par groupe dans une analyse à modèle mixte).
RTbecard le