Comment calculer avec de minuscules probabilités et de gros échantillons?

Est-il possible de calculer ou d'approximer la probabilité que quelque chose d'extrêmement improbable se produise une fois sur un grand échantillon, c'est-à-dire dans des situations où la probabilité est inférieure à l'erreur machine?

Par exemple, j'essayais de calculer la probabilité approximative que quelqu'un partage mon génome. Apparemment, un génome individuel peut être compressé sans perte à environ 4 Mo (2 ^ 25 bits). La chance pour l'un des 7 milliards d'humains de la planète de partager mon génome est donc de:

$(1-\frac{1}{2^{2^{25}}})^{(7\times10^9)}$ .

Ou en utilisant la méthode du problème d'anniversaire , la probabilité qu'il y ait au moins deux personnes avec des génomes identiques (ignorons les jumeaux, etc.) est quelque chose comme:

$\frac{(7\times10^9)!\cdot{{2^{2^{25}}} \choose 7\times10^9}}{({2^{2^{25}})}^{(7\times10^9)}}$

Le problème ici est que les nombres sont si petits ou si grands qu'il est impossible de deviner approximativement où ils se trouvent. Alors, existe-t-il un moyen d'approximer ces calculs ou des calculs similaires?

Je me rends compte que dans certains cas, les hypothèses qui sous-tendent les problèmes peuvent être différentes de plusieurs ordres de grandeur, mais même pouvoir se rapprocher de «plus probable qu'improbable» serait intéressant.

probability estimation rien101
la source

Les logarithmes sont appropriés dans de telles circonstances et, si ce n'est pas suffisant, l'approximation de Stirling vous rapproche suffisamment de la valeur réelle pour évaluer l'ampleur de la quantité.

Xi'an

Réponses:

En physique, un problème de Fermi est un exercice qui vous demande d'estimer un ordre de grandeur. Vous pouvez faire de même pour les probabilités. Avec la pratique, votre intuition devrait s'améliorer.

Comme l'a commenté Xi'an, vous pouvez utiliser des logarithmes. Peut-être que vous ne pouvez pas voir en un coup d'œil, mais vous pouvez voir que (ou ), ce qui l’implique. $2^{2^{25}} \gg 10^{10}$ $2^{25} \gg 10$ $10 \log_2 10 \approx 33$

Au lieu d'utiliser des formules compliquées pour calculer les valeurs exactes dont vous n'avez pas besoin, utilisez des estimations simples à calculer. Par exemple, la probabilité qu'il y ait au moins une autre personne avec votre génome (ignorant les jumeaux) est au plus le nombre attendu de personnes avec le même génome, un simple produit que vous devriez pouvoir estimer très petit. De même, la probabilité qu'une paire de personnes ait le même génome est au plus le nombre attendu de paires de personnes avec le même génome, environ $\frac {1}{2^{2^{25}}} (7 \times 10^9)$

\frac{\frac{1}{2} (7 \times 10^{9})^{2}}{2^{2^{25}}}

$\frac{\frac 12 (7 \times 10^9)^2}{2^{2^{25}}}$

Soit dit en passant, je n'accepte pas ce modèle de probabilité pour le génome. Je viens d'utiliser votre modèle pour des exemples. Ce modèle prédit que la similitude génétique généralement observée entre frères et sœurs est astronomiquement peu probable.

Douglas Zare
la source

Ouais, je sais que le modèle est mauvais. Mais les frères et sœurs non jumeaux ne partageront probablement que la moitié de leurs gènes (à part ceux communs à tous les humains), donc je ne suis pas vraiment sûr de ce que vous entendez par similitude génétique entre frères et sœurs.

naught101

Je ne sais pas ce que vous entendez par «environ la moitié», car le génome est censé être compressé. Il y a des endroits où il y a choix et des endroits où il y en a plus de . Quoi qu'il en soit, les endroits où ils n'ont pas de copie du chromosome du même parent peuvent être de toute façon les mêmes par hasard, donc plus de la moitié de leurs gènes devraient être les mêmes, et si vous prétendez que chaque génome est aléatoire, vous estimerez que la chance de cela est astronomiquement faible. De plus, supposons qu'il n'y ait pas de croisements. Les frères et sœurs n'ont alors besoin que de gagner jetons pour avoir les mêmes génomes, pas .

2

$2$

2

$2$

46

$46$

2^{25}

$2^{25}$

Douglas Zare

Des choses intéressantes, mais tout cela est un peu tangentiel à la question, pour laquelle mon modèle trop simpliste n'était qu'un exemple de base. Si vous avez envie de continuer la discussion sur la génétique, nous pourrions le faire dans la salle de chat ..

naught101

C'est tout le matériel de base. Je ne voulais simplement pas montrer les calculs dans ce modèle sans souligner que le modèle est mauvais.

Douglas Zare

Je pense que cela équivaut à un problème d'estimation des queues extrêmes d'une distribution de probabilité sans la taille extrêmement importante de l'échantillon nécessaire pour obtenir tout ou un petit nombre de valeurs observées à ces valeurs extrêmes. La seule façon de le faire est de supposer un modèle paramétrique qui suppose "automatiquement" une forme pour les queues de distribution. Mais si vous avez une justification pour le modèle de probabilité, vous pouvez obtenir les estimations que vous recherchez en ajustant la densité à partir de la famille paramétrique et en l'utilisant pour l'intégrer sur la zone de queue pour estimer cette petite probabilité. Si l'hypothèse paramétrique est fausse, l'estimation pourrait être très éloignée (par ordre de grandeur).

Michael R. Chernick
la source

Bien, je n'y avais pas pensé de cette façon. Je n'ai aucune idée du type de modèle que j'utiliserais pour ce type de problème.

naught101