Problème d'anniversaire inversé avec plusieurs collisions

9

Supposons que vous ayez eu une année étrangère avec une longueur inconnue N. Si vous avez un échantillon aléatoire desdits étrangers et que certains partagent des anniversaires, pouvez-vous utiliser ces données pour estimer la longueur de l'année?

Par exemple, dans un échantillon de 100, vous pourriez avoir deux triplets (c'est-à-dire deux anniversaires partagés chacun par trois étrangers) et cinq paires et quatre-vingt-quatre singletons. Pour estimer N, le minimum absolu est de 91 et le maximum est illimité, mais comment pourrais-je trouver une valeur attendue raisonnable?

Les hypothèses incluent des choses comme «tous les anniversaires sont également probables».

Contrairement à une autre question posée ici, il y a des collisions connues dans la pièce. Toute année suffisamment longue aura une forte probabilité d'absence de collisions pour une chambre d'étrangers. Mais les très longues années auront de faibles chances de collision, et les années courtes auront de faibles chances de peu de collisions, fournissant ainsi une fourchette (théorique) pour les durées les plus probables.

Techhead
la source
3
Ma réponse à une version spéciale de cette question se généralise facilement (en utilisant la distribution multinomiale): voir stats.stackexchange.com/questions/252813 .
whuber
@Techhead De différentes manières! L'approche évidente à mentionner pour l'estimation des paramètres serait le maximum de vraisemblance.
Glen_b -Reinstate Monica
1
@whuber J'ai vu cette question et votre commentaire, mais je n'ai pas vu comment l'appliquer en grande partie à un échantillon avec des collisions connues. Il n'est pas difficile de trouver la forme développée, mais je ne sais pas comment je trouverais la somme logarithmique.
Techhead
1
Je suis d'accord que votre version est suffisamment compliquée pour ne pas être fermée en double.
whuber

Réponses:

2

La valeur attendue d'une distribution est calculée comme . Pour ce problème, nous voulons calculer la distribution de certains critères de collision, ou trouver certains critères de collision, où N E ( N ) = n = 0 p n n p n = P ( N = n ) .E(X)=pixiNE(N)=n=0pnnpn=P(N=n).

Supposons que vous ayez certains critères de collision comme indiqué ci-dessus, et que soit la probabilité que les critères de collision soient remplis étant donné que la longueur de l'année estEnsuite, peut être trouvé en divisant simplement le nombre de façons dont les critères de collision peuvent être satisfaits par le nombre de façons dont les anniversaires peuvent être organisés en général. Une fois trouvé pour chaque possible , la seule pièce manquante est la traduction de en n . q n q n n q n p n .qnn.qnqnnqnpn.

Si nous supposons que est proportionnel à , alorsPuisque , etPar conséquent, nous avons juste besoin d'une formule pour pour résoudre ce problème.q n p n = α q n . n = 0 p n = 1 α n = 0 q n = 1 α = 1pnqnpn=αqn.n=0pn=1αn=0qn=1qnα=1n=0qn.qn

Pour votre exemple, laissez-nous d'abord trouver le nombre de façons dont les critères de collision peuvent se produire étant donnéLe premier singleton étranger peut atterrir un jour, donc il y a possibilités. Le prochain singleton peut atterrir n'importe quel jour, mais l'anniversaire du premier étranger, il y a donc possibilités. En complétant cela pour les 84 premiers singletons, nous obtenons façons possibles pour que cela se produise. Notez que nous avons également 5 paires et 2 triplets, donc le "premier" étranger pour chaque groupe ne doit pas non plus atterrir sur les paires singleton. Cela conduit à un façons dont ces extraterrestres ne se heurtent pas (la syntaxe maladroite est pour une généralisation plus facile plus tard).n n - 1 n ( n - 1 ) ( n - 2 ) . . . ( n - 83 ) n ( n - 1 ) ( n - 2 ) . . . ( n - 84 - 5 - 2 + 1 )N=n.nn1n(n1)(n2)...(n83)n(n1)(n2)...(n8452+1)

Ensuite, le deuxième étranger pour une paire ou un triplet donné a 91 choix, le suivant a 90, etc., le nombre total de façons dont cela peut se produire étant donné les anniversaires des 91 premiers étrangers est de . Les membres restants des triplés doivent tomber les anniversaires des paires, et la probabilité que cela se produise est de . Nous multiplions les probabilités pour tous ensemble pour obtenir un nombre total de façons possibles pour que les critères de collision soient respectés:7 691(911)(912)...(917+1)76

rn=n(n1)...(n8452+1)(84+5+2)(84+5+21)...(84+1)(5+2)(5+1)

À ce stade, le modèle est clair, si nous avons singletons, des paires et des triplets , nous remplaçons 84 par 5 par et 2 par pour obtenir une formule généralisée. Je pense qu'il est également clair que le nombre de façons possibles d'organiser les anniversaires en général est , où m est le nombre total d'étrangers dans le problème. Par conséquent, la probabilité de satisfaire aux critères de collision est le nombre de façons de satisfaire aux critères de collision divisé par le nombre de façons dont les extraterrestres pourraient naître, ou .b c a , b , c n m q n = r nabca,b,cnmqn=rnnm

Une autre chose intéressante est apparue dans la formule de . Soit , Et soit être la partie restante de sorte que . Notez que est indépendant de n, nous pouvons donc simplement écrire comme constante! Puisque et , nous pouvons en fait factoriser de la somme dans le dénominateur. À ce stade, il annule la partie du numérateur pour obtenir . On peut simplifiery n = n ( n - 1 ) . . . ( n - ( a + b + c ) + 1 ) = n !rnyn=n(n1)...(n(a+b+c)+1)=n!(n(a+b+c))!znrnrn=ynznznzn=zpn=qn/i=0qiqn=zynnmzpn=ynnm/i=0(yiim)ynde plus si nous laissons (ou cela peut être considéré comme le nombre d'anniversaires uniques dans le groupe des étrangers), de sorte que nous obtenons:s=a+b+c

pn=n!(ns)!nm/i=0(i!(is)!im)

Nous avons maintenant une formule (assez) simple pour , et donc une formule (assez) simple pour , où la seule hypothèse faite était que est proportionnelle à (la probabilité de rencontrer la collision critères étant donné que ). Je pense que c'est une hypothèse juste à faire, et quelqu'un de plus intelligent que moi pourrait même être en mesure de prouver que cette hypothèse est associée à suite d'une distribution multinomiale. À ce stade, nous pouvons calculer utilisant des méthodes numériques ou faire des hypothèses d'approximation, car approchera de 0 tandis que approche .pnE(N)P(N=n)qnN=nP(N=n)E(N)pnn

Cody Maughan
la source
Il semble que vous proposiez de calculer la valeur attendue en fonction d'une fonction de vraisemblance plutôt que d'une fonction de masse de probabilité. Était-ce intentionnel?
Sextus Empiricus
2

L'excellente réponse de Cody offre une belle façon d'exprimer la fonction de vraisemblance pour , le nombre de jours dans l'année (ou la distribution postérieure basée sur un avant plat) par l' affacturage sur une partie de la probabilité indépendante de .NN

Dans cette réponse, je voudrais l'écrire de manière plus concise et fournir également un moyen de calculer le maximum de cette fonction de vraisemblance (plutôt que la valeur attendue qui est beaucoup plus difficile à calculer).


Fonction de vraisemblance pour N

Le nombre de façons de dessiner une séquence d' anniversaires partir d'un ensemble de anniversaires, avec la restriction que est le nombre d'anniversaires simples, anniversaires en double et triples anniversaires est égal àa+2b+3cnabc

rn=(na+b+c)number of ways topick m unique birthdaysout of n days(a+b+c)!a!b!c!number of ways todistribute m birthdaysamong groups of size ab and c(a+2b+3c)!1!a2!b3!cnumber of ordered ways toarrange specific single, duplicate, and triplicatesamong the aliens =n!(nabc)!×(a+2b+3c)a!b!c!1!a2!b3!c

et seul le premier terme à droite dépend de , donc en factorisant les autres termes, nous par une expression simple pour une fonction de vraisemblancen

L(n|a,b,c)=n(a+2b+3c)n!(nabc)!=nmn!(ns)!P(a,b,c|n)

où nous suivons la notation de Cody et utilisons pour désigner le nombre d'étrangers et le nombre d'anniversaires uniques.ms


Estimation du maximum de vraisemblance pour N

Nous pouvons utiliser cette fonction de vraisemblance pour obtenir l'estimation du maximum de vraisemblance pour .N

Notez que

L(n)=L(n1)(n1n)mnns

et le maximum se produira juste avant le pour lequeln

(n1n)mnns=1

ou

s=n(1(11/n)m)

qui est pour les gros environ (en utilisant une série Laurent que vous pouvez trouver en substituant et en écrivant la série Taylor pour au point )nx=1/nxx=0

sk=0l(mk)(n)k+O(n(l+1))

En utilisant seulement le terme de premier ordre vous obtenez:smm(m1)2n

n1(m2)ms

En utilisant également le terme de second ordre vous obtenez :smm(m1)2n+m(m1)(m2)6n2

n2(m2)+(m2)24(ms)(m3)2(ms)

Ainsi, dans le cas des étrangers parmi lesquels il y a anniversaires uniques, vous obtenez approximativement et . Lorsque vous résolvez l'équation numériquement, vous obtenez que nous arrondissons à pour obtenir le MLE.m=100s=91n1550n2515.1215n=516.82n=516

comparer l'approximation avec le vrai MLE

Sextus Empiricus
la source