Sur les forums de dénomination des bébés, les futurs parents répètent constamment une version de leur peur de Jennifer: «Je ne veux pas que mon enfant soit l'un des 5 de sa classe avec son nom. Le fait est qu'aucun nom ne se rapproche même plus de ce genre de popularité, et même au plus fort de l'engouement pour Jennifer, vous n'en avez pas eu cinq dans une classe. Je voudrais une sorte de réponse pour ces parents à quel point une telle coïncidence de répétition de noms serait improbable.
À l'aide des nombreuses données sur le nom de bébé de la Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ), quelqu'un peut-il me dire comment déterminer les chances d'une classe d'école élémentaire aux États-Unis d'avoir cinq des enfants du même nom? (Pour simplifier, par "même nom", je veux dire la même orthographe, et par "classe d'école", je veux dire que tous les enfants sont nés la même année.) Je ne spécifie pas de taille de classe, mais elle devrait certainement être supérieure à 4 . :-)
la source
Réponses:
Toutes les données peuvent être trouvées ici . Chaque valeur du tableau représente la probabilité qu'étant donné un échantillon de 25 personnes de ce lieu et de cette année de naissance, 5 d'entre elles partageront un nom.
Méthode : J'ai utilisé le fichier PDF binomial sur chaque nom pour trouver la probabilité qu'une classe donnée de 25 personnes ait 5 personnes qui partagent un nom:
Par exemple, s'il y a 4 000 000 d'enfants au total et 21 393 Emily, alors la probabilité qu'il y ait 5 Emily dans une classe donnée avec 25 élèves est Binomial (25, 5, 0,0053) = 0,0000002. La somme de tous les noms ne donne pas de réponse exacte, car selon le principe d'inclusion / exclusion , nous devons également tenir compte de la possibilité d'avoir plusieurs groupes de 5 personnes qui partagent des noms. Cependant, comme ces probabilités sont pratiquement nulles à toutes fins pratiques, je les ai supposées négligeables, et donc .P( ⋃ Aje) ≈ ∑ P( Aje)
Mise à jour: Comme de nombreuses personnes l'ont souligné, il existe des écarts considérables au fil du temps et entre les États. J'ai donc exécuté le même programme, ÉTAT PAR ÉTAT, et au fil du temps. Voici les résultats (la probabilité à l'échelle nationale est rouge, les états individuels sont noirs):
Fait intéressant, le Vermont (mon État d'origine) a toujours été l'un des endroits les plus susceptibles de se produire au cours des dernières décennies.
la source
veuillez consulter le script Python suivant pour Python2.
La réponse est inspirée de la réponse de David C.
Ma réponse finale serait, la probabilité de trouver au moins cinq Jacobs dans une classe, Jacob étant le nom le plus probable selon les données de https://www.ssa.gov/oact/babynames/limits.html "National Data "à partir de 2006.
La probabilité est calculée selon une distribution binomiale avec Jacob-Probability étant la probabilité de succès.
Max. probabilité d'au moins cinq enfants portant le même nom sur 25: 4.7e-07 pour le nom Jacob
Max. probabilité pour au moins cinq enfants portant le même nom sur 50: 1,6e-05 pour le nom Jacob, bien sûr.
Max. probabilité pour au moins cinq enfants portant le même nom sur 100: 0,00045 pour le nom Jacob, bien sûr.
Par un facteur de 10 même résultat que celui de David C. Merci. (Ma réponse ne résume pas tous les noms, devrait être discutée)
la source