L'échantillonnage avec remplacement a deux avantages par rapport à l'échantillonnage sans remplacement tel que je le vois:
1) Vous n'avez pas à vous soucier de la correction de la population finie.
2) Il est possible que des éléments de la population soient dessinés plusieurs fois - alors vous pouvez recycler les mesures et gagner du temps.
Bien sûr, à partir d'un POV universitaire, il faut étudier les deux méthodes. Mais à partir d'un POV pratique, je ne vois pas pourquoi on envisagerait un échantillonnage sans remplacement, étant donné les avantages du remplacement.
Mais je suis un débutant en statistiques, donc il pourrait y avoir beaucoup de bonnes raisons pour lesquelles sans remplacement pourrait être le choix supérieur - au moins pour des cas d'utilisation spécifiques. Je vous en prie, ne me confondez pas!
la source
Réponses:
Développant la réponse de @Scortchi. . .
Supposons que la population compte 5 membres et que vous disposiez d'un budget pour échantillonner 5 personnes. Vous vous intéressez à la moyenne de population d'une variable X, caractéristique des individus de cette population. Vous pouvez le faire à votre façon et échantillonner au hasard avec remplacement. La variance de la moyenne de l'échantillon sera V (X) / 5.
Par contre, supposons que vous échantillonniez les cinq individus sans remplacement. Ensuite, la variance de la moyenne de l'échantillon est de 0. Vous avez échantillonné la population entière, chaque individu exactement une fois, il n'y a donc pas de distinction entre la «moyenne de l'échantillon» et la «moyenne de la population». Ce sont les mêmes choses.
Dans le monde réel, vous devriez sauter de joie chaque fois que vous devez faire la correction de population finie car (roulement de tambour ...) cela fait baisser la variance de votre estimateur sans que vous ayez à collecter plus de données. Presque rien ne fait ça. C'est comme de la magie: de la bonne magie.
Dire exactement la même chose en mathématiques (faites attention au <et supposez que la taille de l'échantillon est supérieure à 1):
La correction <1 signifie que l'application de la correction fait baisser la variance, car vous appliquez la correction en la multipliant par rapport à la variance. Variance DOWN == bonne.
En allant dans la direction opposée, complètement à l'écart des mathématiques, réfléchissez à ce que vous demandez. Si vous voulez en savoir plus sur la population et que vous pouvez en échantillonner 5 personnes, est-il probable que vous en apprendrez plus en prenant la chance d'échantillonner le même gars 5 fois ou semble-t-il plus probable que vous en apprendrez plus en vous assurant que vous échantillonnez 5 gars différents?
Le cas du monde réel est presque le contraire de ce que vous dites. Presque jamais vous n'échantillonnez avec remplacement --- c'est seulement lorsque vous faites des choses spéciales comme le bootstrap. Dans ce cas, vous essayez en fait de bousiller l'estimateur et de lui donner une variance "trop grande".
la source
La précision des estimations est généralement plus élevée pour l'échantillonnage sans remplacement par rapport à l'échantillonnage avec remplacement.
la source
Je ne pense pas que les réponses ici soient totalement adéquates, et elles semblent plaider en faveur du cas limite dans lequel votre quantité de données est très faible.
Avec un échantillon suffisamment grand, ce n'est pas du tout un problème, surtout avec de nombreux rééchantillonnages bootstrap (~ 1000). Si j'ai échantillonné à partir de la distribution réelle un ensemble de données de taille 10 000, et que je rééchantillonne avec remplacement 1000 fois, alors la variance que j'obtiens (par opposition à la variance que j'obtiendrais en ne remplaçant pas ) est totalement négligeable.
Je dirais que la réponse la plus précise est la suivante: le rééchantillonnage sans remplacement est essentiel lors de l'estimation de la confiance d'une statistique de second ordre . Par exemple, si j'utilise un bootstrap pour estimer l'incertitude que j'ai dans une mesure de dispersion. Le dessin avec remplacement d'une telle quantité peut fausser artificiellement les dispersions récupérées.
Pour un exemple concret avec des données réelles, si vous êtes à la hauteur, consultez cet article https://arxiv.org/abs/1612.02827
il discute brièvement de votre question à la page 10
la source
J'ai un résultat qui traite sans remplacement pratiquement comme avec remplacement et supprime toutes les difficultés. Notez que les calculs de remplacement sont beaucoup plus faciles. Donc, si une probabilité implique p et q, les probabilités de succès et d'échec, dans le cas de remplacement, la probabilité correspondante dans sans cas de remplacement est obtenue simplement avec le remplacement de p ^ aq ^ b par (Nab) C (Ra) pour tout a et b, où N, R sont le nombre total de boules et le nombre de boules blanches. N'oubliez pas que p est traité comme R / N.
K.Balasubramanian
la source