Erreur dans l'estimation de la taille d'un ensemble?

9

Supposons que nous ayons un ensemble A et un sous-ensemble B. Si nous connaissons | A |, alors nous pouvons calculer | B | en trouvant la probabilité p qu'un élément choisi uniformément au hasard parmi A appartient à B. Plus précisément | A | p = | B |.

Supposons que nous générons n éléments de A uniformément au hasard et utilisons ces données pour estimer p (nombre d'éléments dans B divisé par n) et donc estimer | B |.

Quelle est la fiabilité de cette estimation? C'est-à-dire comment pouvons-nous calculer l'erreur?

Comme question secondaire, y a-t-il un nom pour cette technique? (il semble que ce soit une version mathématique de la technique de marquage et de recapture )

Douglas S. Stones
la source
1
C'est une estimation binomiale . (Il n'y a aucun marquage ou recapture du tout. Ce qui conduit à une estimation hypergéométrique.)
whuber

Réponses:

8

Vous estimez des proportions. Pour être concret, imaginez que A est la population des électeurs et B est l'ensemble des électeurs qui votent pour un candidat particulier. Ainsi, p serait le pourcentage d'électeurs qui voteraient pour ce candidat. Laisser:

π être le véritable pourcentage de personnes qui voteraient pour le candidat

En d'autres termes:

π=|B||A|

Ensuite, chacun de vos échantillons est un essai bernoulli avec probabilité ou de manière équivalente, vous pouvez imaginer que chacun de vos échantillons est un sondage d'électeurs potentiels leur demandant s'ils voteraient pour le candidat. Ainsi, le MLE de est donné par:ππ

p=nBn

nB est le nombre de personnes qui ont dit qu'elles voteraient pour le candidat ou le nombre d'éléments qui appartiennent à l'ensemble B dans votre échantillon de taille .n

L'erreur standard pour votre estimation est:

π(1π)n

Ce qui précède peut être approximé en utilisant le MLE pour c'est-à-dire en:π

p(1p)n


la source