Voici un exemple de cas:
- J'ai une population de 10 000 articles. Chaque élément a un identifiant unique.
- Je choisis au hasard 100 articles et enregistre les identifiants
- J'ai remis les 100 articles dans la population
- Je choisis à nouveau au hasard 100 articles, enregistre les identifiants et les remplace.
- Au total, je répète cet échantillonnage aléatoire 5 fois
Quelle est la probabilité que le nombre d'articles apparaisse dans les 5 échantillonnages aléatoires?
Je ne connais pas très bien les statistiques. Serait-ce correct pour ?
- Pour chaque échantillonnage, le nombre de combinaisons possibles de 100 éléments sur 10 000 est
- Sur toutes les combinaisons possibles de 100 éléments, combinaisons contiennent 10 éléments spécifiques
- La probabilité d'avoir 10 éléments spécifiques est
- La probabilité calculée à la puissance de 5 représenterait 5 échantillonnages indépendants.
Donc, essentiellement, nous calculons simplement 5 probabilités hypergéométriques indépendantes, puis les multiplions ensemble? J'ai l'impression de manquer une étape quelque part.
Réponses:
Calculez les chances de manière récursive.
Soit la probabilité que exactement valeurs, , soient sélectionnées dans tous les tirages indépendants de éléments (sans remplacement) à partir d'une population de membres . (Gardons et fixes pour la durée de l'analyse afin qu'ils n'aient pas à être mentionnés explicitement.)x 0 ≤ x ≤ k s ≥ 1 k n ≥ k > 0 n kps(x) x 0≤x≤k s≥1 k n≥k>0 n k
Soit la probabilité que si exactement les valeurs sont sélectionnées dans les premiers tirages , alors sont sélectionnées dans le dernier tirage. Ensuite, parce qu'il y a sous-ensembles de éléments de ces éléments, et sous-ensembles des éléments restants sont sélectionnés séparément parmi les autres membres de la population,y s - 1 x ≤ yps(x∣y) y s−1 x≤y (yx) x y (n−yk−x) k−x n−y
La loi de la probabilité totale affirme
Pour , c'est une certitude que : c'est la distribution de départ.s=1 x=k
Le calcul total nécessaire pour obtenir la distribution complète jusqu'à répétitions est . Non seulement c'est assez rapide, l'algorithme est facile. Un écueil qui attend le programmeur imprudent est que ces probabilités peuvent devenir extrêmement petites et dépasser les calculs à virgule flottante. L' implémentation suivante évite cela en calculant les valeurs de dans les colonnes d'un tableau.s O(k2s) log(ps(x)) 1,2,…,s
R
La réponse à la question est obtenue en laissant et .s=5, n=10000=104 k=100=102 La sortie est un tableau , mais la plupart des nombres sont si petits que nous pouvons nous concentrer sur un très petit . Voici les quatre premières lignes correspondant à :101×5 x x=0,1,2,3
La sortie est
Les valeurs de étiquettent les lignes tandis que les valeurs de étiquettent les colonnes. La colonne 5 montre la probabilité qu'un élément apparaisse dans les cinq échantillons est minuscule (environ un sur un million) et il n'y a pratiquement aucune chance que deux éléments ou plus apparaissent dans les cinq échantillons.x s
Si vous souhaitez voir à quel point ces chances sont faibles, regardez leurs logarithmes. La base 10 est pratique et nous n'avons pas besoin de beaucoup de chiffres:
La sortie nous indique combien de zéros il y a après le point décimal:
Les nombres dans la ligne supérieure sont des valeurs de . Par exemple, la probabilité d'exactement trois valeurs apparaissant dans les cinq échantillons est trouvée en calculant , donnant et en effet cela a zéros avant le premier chiffre significatif. À titre de vérification, la dernière valeur est une version arrondie de . (qui compte les chances que le premier échantillon réapparaisse dans les quatre échantillons suivants) est égal àx 0.0000000000000000001434419… 18 967.0 967.26 (10000100)−4 10−967.26.
exp(u[4])
la source
Je viens de rencontrer un problème similaire et, même si je ne sais pas non plus si c'est la bonne solution, je l'ai abordé comme ceci:
Vous êtes intéressé par l'occurrence de éléments dans 5 échantillons á éléments de éléments au total. Vous pourriez penser à une urne avec boules blanches et boules noires. balles sont retirées et est la probabilité que vous ayez toutes les boules blanches dans votre set. Si vous faites cela fois (indépendamment), je le multiplierais: .X 100 10,000 X 10,000−X 100 ph X 5 p=ph5
Je pourrais même penser à un pas de plus et l'enrouler autour de la distribution binomiale: si vous avez une pièce de monnaie qui se présente avec la probabilité (la probabilité que vous ayez tous les articles dans votre ensemble) et que vous la jetiez fois, quelle est la probabilité d'obtenir têtes? .ph 5 5 p=(55)ph5(1−ph)5−5=ph5
la source
En vous basant sur ce que Hans a dit, vous voulez toujours obtenir les mêmes identifiants dans chaque échantillon de 100 et 100 identifiants parmi les 10 000 restants . La probabilité de le faire pour un échantillon donné est donnée par la fonction hypergéométrique pour succès dans un tirage de 100 sur une population de 10000 avec états de succès possibles: . Pour 5 échantillons, vous prendriez .X X X X X P=(XX)(10000−X100−X)(10000100) P5
Cependant, cela présuppose connaître les id qui sont partagés, et il y a façons de sélectionner ces id. Votre réponse finale serait donc .X (10000X) X (10000X)P5
la source