Je sais que c’est un sujet brûlant où personne ne peut vraiment donner une réponse simple. Néanmoins, je me demande si l'approche suivante ne pourrait pas être utile.
La méthode bootstrap n'est utile que si votre échantillon suit plus ou moins (lire exactement) la même distribution que la population d'origine. Afin d’en être certain, vous devez augmenter la taille de votre échantillon. Mais qu'est-ce qui est assez grand?
Si ma prémisse est correcte, vous rencontrez le même problème lorsque vous utilisez le théorème de la limite centrale pour déterminer la moyenne de la population. Ce n'est que lorsque la taille de votre échantillon est suffisante que vous pouvez être certain que la population de la moyenne de votre échantillon est normalement répartie (autour de la moyenne de la population). En d'autres termes, vos échantillons doivent bien représenter votre population (répartition). Mais encore une fois, qu'est-ce qui est assez grand?
Dans mon cas (processus administratifs: temps nécessaire pour répondre à une demande par rapport à une demande), j'ai une population avec une distribution multimodale (toutes les demandes achevées en 2011), dont je suis à 99% certain qu'elle l'est encore moins. normalement réparties que la population (toutes les demandes finies entre aujourd'hui et un jour, idéalement, cette période est aussi petite que possible). Je souhaite effectuer des recherches.
Ma population de 2011 est composée d'un nombre suffisant d'unités pour faire échantillons d'une taille d'échantillon . Je choisis une valeur de , supposons ( ). Maintenant, j'utilise l'essai et l'erreur pour déterminer une bonne taille d'échantillon. Je prends un et je vérifie si la population moyenne de mon échantillon est normalement distribuée en utilisant Kolmogorov-Smirnov. Si tel est le cas, je répète les mêmes étapes mais avec une taille d'échantillon de , sinon, répétez avec une taille d'échantillon de (etc.).
Après un moment, je conclus que est la taille minimale absolue de l’échantillon pour obtenir une représentation plus ou moins bonne de ma population de 2011. Étant donné que je connais ma population d'intérêt (toutes les demandes qui sont finies entre le jour présent et un jour dans le passé) a moins de variance, je peux utiliser en toute sécurité une taille d'échantillon de pour l'initialisation. (Indirectement, le n = 45 détermine la taille de mon intervalle de temps: le temps nécessaire pour terminer les 45 demandes.)
Ceci est, en bref, mon idée. Mais comme je ne suis pas un statisticien mais un ingénieur dont les leçons de statistiques ont eu lieu à l'époque, je ne peux pas exclure la possibilité que je produise beaucoup de déchets :-). Qu'en pensez-vous? Si ma prémisse est logique, dois-je choisir un supérieur à 10 ou inférieur? En fonction de vos réponses (dois-je me sentir gêné ou non? :-) Je posterai quelques idées de discussion supplémentaires.
réponse à la première réponse Merci de votre réponse, votre réponse m'a été très utile, en particulier les liens du livre.
Mais je crains que, dans ma tentative de donner des informations, j'ai complètement obscurci ma question. Je sais que les échantillons bootstrap prennent en charge la distribution de l'échantillon de population. Je te suis complètement mais ...
Votre échantillon de population d'origine doit être suffisamment important pour être raisonnablement certain que la distribution de votre échantillon de population correspond (égale) à la distribution "réelle" de la population.
Il s’agit simplement d’une idée sur la façon de déterminer la taille de votre échantillon initial pour être raisonnablement certain que la distribution de l’échantillon correspond à la distribution de la population.
Supposons que vous ayez une distribution de population bimodale et que l'un des deux soit beaucoup plus grand que l'autre. Si la taille de votre échantillon est de 5, il est fort probable que les 5 unités aient une valeur très proche du sommet supérieur (la possibilité de tirer au hasard une unité est la plus grande). Dans ce cas, la répartition de votre échantillon sera monomodale.
Avec une taille d'échantillon de cent, la probabilité que votre distribution d'échantillon soit également bimodale est beaucoup plus grande! Le problème avec l'initialisation est que vous n'avez qu'un seul échantillon (et que vous construisez plus loin sur cet exemple). Si la distribution de l'échantillon ne correspond vraiment pas à la distribution de la population, vous êtes en difficulté. Ceci est juste une idée pour réduire au maximum les risques de "mauvaise distribution d'échantillons" sans avoir à rendre la taille de votre échantillon infiniment grande.
la source
checkout échantillonnage bootstrap bayésien qui pourrait faire face à la petite taille de l'échantillon. Voir http://www.sumsar.net/blog/2015/04/the-non-parametric-bootstrap-as-a-bayesian-model/ pour plus de détails.
la source