Probabilité que cinq enfants de la même classe aient le même prénom

10

Sur les forums de dénomination des bébés, les futurs parents répètent constamment une version de leur peur de Jennifer: «Je ne veux pas que mon enfant soit l'un des 5 de sa classe avec son nom. Le fait est qu'aucun nom ne se rapproche même plus de ce genre de popularité, et même au plus fort de l'engouement pour Jennifer, vous n'en avez pas eu cinq dans une classe. Je voudrais une sorte de réponse pour ces parents à quel point une telle coïncidence de répétition de noms serait improbable.

À l'aide des nombreuses données sur le nom de bébé de la Social Security Administration ( https://www.ssa.gov/oact/babynames/limits.html ), quelqu'un peut-il me dire comment déterminer les chances d'une classe d'école élémentaire aux États-Unis d'avoir cinq des enfants du même nom? (Pour simplifier, par "même nom", je veux dire la même orthographe, et par "classe d'école", je veux dire que tous les enfants sont nés la même année.) Je ne spécifie pas de taille de classe, mais elle devrait certainement être supérieure à 4 . :-)

JPmiaou
la source
1
Les messages sur les noms de bébé sont un thème récurrent sur le blog d'Andrew Gelman. Dans aucun des articles que j'ai trouvés sur son site, il ne discute de votre question spécifique. Il fait un lien vers un "blog de nom de bébé" où vous pourriez avoir plus de chance d'obtenir une réponse. andrewgelman.com/2005/09/07/baby_name_blog
Mike Hunter
Je pense que vous pouvez enchaîner quelque chose ensemble en utilisant la distribution multinomiale avec des probabilités de succès, disons, les vingt premiers noms extraits de données de recensement comme celle- ci .
Antoni Parellada
La SSA fournit-elle des données sur le nombre d'enfants nés avec un nom? Je ne trouve que des informations sur les rangs qui rejettent évidemment des informations utiles.
Sycorax dit Réintégrer Monica
6
@AntoniParellada Je pense que la réalité de la situation est encore plus subtile: étant donné que le système scolaire américain est fortement séparé par le revenu et la race, je pense que les statistiques nationales auront une mauvaise correspondance avec les salles de classe réelles.
Sycorax dit Réintégrer Monica
3
Quand j'étais élève dans une (petite) école primaire, nous avions trois Johns dans une toute petite classe (je pense que les garçons et les filles réunis n'avaient que 14 ans environ). Un an, nous avons combiné avec l'année ci-dessus pour faire une classe pleine taille ... et avons obtenu un quatrième John. Maintenant, John était assez commun à l'époque, mais pas si commun. (En termes de problème d'origine, trois seraient presque aussi ennuyeux que cinq). Le risque qu'un nom particulier soit dupliqué plusieurs fois serait très faible, mais le risque qu'un nom apparaisse plusieurs fois sera beaucoup plus élevé.
Glen_b -Reinstate Monica

Réponses:

9

Toutes les données peuvent être trouvées ici . Chaque valeur du tableau représente la probabilité qu'étant donné un échantillon de 25 personnes de ce lieu et de cette année de naissance, 5 d'entre elles partageront un nom.

Méthode : J'ai utilisé le fichier PDF binomial sur chaque nom pour trouver la probabilité qu'une classe donnée de 25 personnes ait 5 personnes qui partagent un nom:

n = class size
k = 5,6,...,n 
p_i = (# of name[i]'s) / (total # of kids)

Pn(5+ kjes shunere nuneme)= nunemesk=5n(nk)pjek(1-pje)n-k

Par exemple, s'il y a 4 000 000 d'enfants au total et 21 393 Emily, alors la probabilité qu'il y ait 5 Emily dans une classe donnée avec 25 élèves est Binomial (25, 5, 0,0053) = 0,0000002. La somme de tous les noms ne donne pas de réponse exacte, car selon le principe d'inclusion / exclusion , nous devons également tenir compte de la possibilité d'avoir plusieurs groupes de 5 personnes qui partagent des noms. Cependant, comme ces probabilités sont pratiquement nulles à toutes fins pratiques, je les ai supposées négligeables, et donc .P(UNEje)P(UNEje)

Mise à jour: Comme de nombreuses personnes l'ont souligné, il existe des écarts considérables au fil du temps et entre les États. J'ai donc exécuté le même programme, ÉTAT PAR ÉTAT, et au fil du temps. Voici les résultats (la probabilité à l'échelle nationale est rouge, les états individuels sont noirs):

entrez la description de l'image ici

Fait intéressant, le Vermont (mon État d'origine) a toujours été l'un des endroits les plus susceptibles de se produire au cours des dernières décennies.

David C
la source
3
Avez-vous une chance d'expliquer comment vous avez obtenu ces chiffres? Vous n'avez pas besoin de beaucoup de bêtises - j'ai un baccalauréat en mathématiques et je sais où chercher des choses - mais j'aimerais vraiment savoir le genre de raisonnement qui mène réellement aux probabilités (à la place des soupirs intimidés).
JPmiaou
1
Cela suppose que les noms sont donnés au hasard avec les mêmes probabilités , ce qui n'est tout simplement pas vrai . L'expérience de la vie réelle montre également qu'il y a beaucoup plus de cours avec des enfants portant le même nom que 1 sur 200!
Tim
4
J'obtiens des résultats légèrement différents, mais ils sont proches. Cela ne vaut pas la peine d'être discuté, car la variation géographique et temporelle des résultats est énorme. La réponse a changé de deux ordres de grandeur depuis 1910 et varie d'un ordre de grandeur entre les États. Comme presque aucune classe d'école élémentaire n'est issue de l'ensemble des États-Unis, le modèle de sélection aléatoire dans la liste des noms nationaux est inapproprié.
whuber
2
(1) Regardez les autres années dans le fichier national que vous avez téléchargé. (2) Regardez les fichiers d'état disponibles sur le même site.
whuber
2
Oui, le graphique des probabilités au fil du temps est dramatique: il a commencé une forte baisse en 1980. Mais la variation de l'État est en effet très importante, comme on pourrait s'y attendre: les noms varient géographiquement et ils regroupent fortement par ethnicité, revenu et autres facteurs démographiques. (+1 pour votre enquête approfondie sur la variation d'état et de temps, BTW.)
whuber
0

veuillez consulter le script Python suivant pour Python2.

La réponse est inspirée de la réponse de David C.

Ma réponse finale serait, la probabilité de trouver au moins cinq Jacobs dans une classe, Jacob étant le nom le plus probable selon les données de https://www.ssa.gov/oact/babynames/limits.html "National Data "à partir de 2006.

La probabilité est calculée selon une distribution binomiale avec Jacob-Probability étant la probabilité de succès.

import pandas as pd
from scipy.stats import binom

data = pd.read_csv(r"yob2006.txt", header=None, names=["Name", "Sex", "Count"])

# count of children in the dataset:
sumCount = data.Count.sum()

# do calculation for every name:
for i, row in data.iterrows():
    # relative counts of each name being interpreted as probabily of occurrence
    data.loc[i, "probability"] = data.loc[i, "Count"]/float(sumCount)

    # Probabilites being five or more children with that name in a class of size n=25,50 or 100
    data.loc[i, "atleast5_class25"] = 1 - binom.cdf(4,25,data.loc[i, "probability"])
    data.loc[i, "atleast5_class50"] = 1 - binom.cdf(4,50,data.loc[i, "probability"])
    data.loc[i, "atleast5_class100"] = 1 - binom.cdf(4,100,data.loc[i, "probability"])

maxP25 = data["atleast5_class25"].max()
maxP50 = data["atleast5_class50"].max()
maxP100 = data["atleast5_class100"].max()

print ("""Max. probability for at least five kids with same name out of 25: {:.2} for name {}"""
   .format(maxP25, data.loc[data.atleast5_class25==maxP25,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 50: {:.2} for name {}, of course."""
   .format(maxP50, data.loc[data.atleast5_class50==maxP50,"Name"].values[0]))
print
print ("""Max. probability for at least five kids with same name out of 100: {:.2} for name {}, of course."""
   .format(maxP100, data.loc[data.atleast5_class100==maxP100,"Name"].values[0]))

Max. probabilité d'au moins cinq enfants portant le même nom sur 25: 4.7e-07 pour le nom Jacob

Max. probabilité pour au moins cinq enfants portant le même nom sur 50: 1,6e-05 pour le nom Jacob, bien sûr.

Max. probabilité pour au moins cinq enfants portant le même nom sur 100: 0,00045 pour le nom Jacob, bien sûr.

Par un facteur de 10 même résultat que celui de David C. Merci. (Ma réponse ne résume pas tous les noms, devrait être discutée)

feinmann
la source
Cette réponse ne semble pas répondre à la question de la possibilité que certains nom apparaît cinq fois ou plus dans une salle de classe.
whuber
1
P(UNEje)P(UNEje)
2
Non, vous n'avez pas répondu à la question car vous venez de la formuler. La chance que certains nom apparaît cinq fois ou plus est beaucoup plus grande que le maximum de chances qu'un donné le nom apparaît cinq fois ou plus.
whuber
3
Comme le souligne @whuber, "5 Jacobs" est un argument plus faible que "5 d'un certain nom", mais il peut être utile dans les discussions sur le nom de bébé de toute façon: "Voici la probabilité de cinq enfants avec le nom le plus populaire. Vous n'êtes pas en utilisant le nom le plus populaire, donc votre probabilité est encore moindre. "
JPmiaou
2
Ce n'est pas exactement , car les possibilités ne s'excluent pas mutuellement: vous pourriez avoir 5 Thomases ou plus et 5 Richards ou plus ( et peut-être même 5 Henrys ou plus) dans une même classe. C'est donc une limite supérieure. @DavidC soutient dans un commentaire ici que de tels événements ont une probabilité négligeable.
Scortchi - Réintégrer Monica