Quelle est la vraie réponse à la question anniversaire?

13

"Quelle doit être la taille d'une classe pour que la probabilité de trouver deux personnes avec le même anniversaire soit d'au moins 50%?"

J'ai 360 amis sur Facebook et, comme prévu, la distribution de leurs anniversaires n'est pas uniforme du tout. J'ai un jour avec 9 amis avec le même anniversaire. (9 mois après les grandes vacances et la Saint-Valentin semblent être de grandes dates, lol ..) Donc, étant donné que certains jours sont plus susceptibles d'être un anniversaire, je suppose que le nombre de 23 est une limite supérieure.

Y a-t-il eu une meilleure estimation de ce problème?

Adam
la source
3
Un échantillon de 360 ​​personnes ne constitue pas un grand échantillon pour la distribution des anniversaires sur 365 jours de l'année ... Vous ne pouvez certainement pas vérifier l'uniformité sur un si petit échantillon.
Xi'an
Une personne a un anniversaire, quelles sont les chances qu'une deuxième personne ne partage pas le même anniversaire? 364/365, quelles sont les chances qu'une troisième personne ne partage aucun anniversaire? (364/365) * (363/365). Développez cela jusqu'à ce que vous ayez une probabilité < 50%. Cela signifierait les chances que personne n'a le même anniversaire, ce qui signifierait à son tour que les chances pour au moins deux de partager un anniversaire seraient > 50%.
zzzzBov
8
Devons-nous supposer que vous avez des amis au hasard ?
James
1
1365

Réponses:

18

Heureusement, quelqu'un a publié de véritables données d'anniversaire avec un peu de discussion sur une question connexe (est l'uniforme de distribution). Nous pouvons utiliser cela et rééchantillonnage pour montrer que la réponse à votre question est apparemment 23 - la même que la réponse théorique .

> x <- read.table("bdata.txt", header=T)
> birthday <- data.frame(date=as.factor(x$date), count=x$count)
> summary(birthday) 
      date         count     
 101    :  1   Min.   : 325  
 102    :  1   1st Qu.:1266  
 103    :  1   Median :1310  
 104    :  1   Mean   :1314  
 105    :  1   3rd Qu.:1362  
 106    :  1   Max.   :1559  
 (Other):360                 
> results <- rep(0,50)
> reps <-2000 # big number needed as there is some instability otherwise
> for (i in 1:50)
+ {
+ count <- 0
+ for (j in 1:reps)
+ {
+ samp <- sample(birthday$date, i, replace=T, prob=birthday$count)
+ count <- count + 1*(max(table(samp))>1)
+ }
+ results[i] <- count/reps
+ }
> results
 [1] 0.0000 0.0045 0.0095 0.0220 0.0210 0.0395 0.0570 0.0835 0.0890 0.1165
[11] 0.1480 0.1770 0.1955 0.2265 0.2490 0.2735 0.3105 0.3350 0.3910 0.4165
[21] 0.4690 0.4560 0.5210 0.5310 0.5745 0.5975 0.6240 0.6430 0.6950 0.7015
[31] 0.7285 0.7510 0.7690 0.8025 0.8225 0.8280 0.8525 0.8645 0.8685 0.8830
[41] 0.8965 0.9020 0.9240 0.9435 0.9350 0.9465 0.9545 0.9655 0.9600 0.9665
Peter Ellis
la source
8
En effet, on peut montrer via la convexité de Schur , que pour toute distribution non uniforme d'anniversaires, la probabilité d'une correspondance est au moins aussi grande que dans le cas uniforme. Il s'agit de l' exercice 13.7 de J. Michael Steele, The Cauchy-Schwarz Master Class: An Introduction to the Art of Mathematical Inequality , Cambridge University Press, 2004, p. 206 .
Cardinal
2
@ Xi'an: En effet. Maintenant, si seulement je connaissais quelqu'un qui a fait des critiques de livres pour un magazine de statistiques de haute qualité et à fort lectorat, je leur suggère de le réviser pour donner une plus grande visibilité aux statisticiens ... mais où trouver une telle personne ...
Cardinal
3
(Pour ceux qui peuvent s'interroger sur mon commentaire précédent, il fait référence au fait que @ Xi'an est le critique de livres nouvellement nommé pour Chance .)
Cardinal
2
@ Xi'an, vérifier et voir ce que vous pensez: table(replicate(10^5, max(tabulate(sample(1:365,360,rep=TRUE))))).
whuber
3
Il n'est probablement pas clair, sauf pour R cognoscenti, que le code dans les commentaires précédents de @ Xi'an et moi-même simule la situation du PO. Son fonctionnement établit que la chance pour 9 personnes ou plus de partager un anniversaire, sur 360 choisies au hasard dans une population uniformément répartie, n'est que d'environ 40 sur 100 000. La valeur la plus probable pour le nombre maximum d'anniversaires partagés est 5.
whuber