Probabilité de naître un jour bissextile?

31

Étant donné qu'aujourd'hui est un jour bissextile, quelqu'un connaît-il la probabilité de naître un jour bissextile?

StatsStudent
la source
30
Notez que les naissances ne sont pas réparties uniformément tout au long de l'année, de sorte que la probabilité qu'un jour choisi au hasard soit un jour bissextile n'est pas la même que la probabilité de naître un jour.
Ben Millwood
17
De qui est né? Tout le monde dans l'histoire? Aujourd'hui? Tous les gens vivants? Prospectivement dans le futur? Les probabilités n'ont de sens que si les événements auxquels elles se réfèrent sont bien définis.
whuber
15
100% des personnes nées aujourd'hui le seront. Est ce que ça aide?
aslum
8
Beaucoup de parents ne veulent pas que leurs enfants naissent le jour du saut. Ainsi, avec l'augmentation des césariennes programmées, la probabilité sera inférieure à un jour aléatoire. fivethirtyeight.com/features/…
James Lawruk
3
Je suis d'accord avec @whuber, que la question est mal définie. Sans une définition appropriée de l'espace de probabilité, la question ne peut pas être répondue. D'où le downvote.
mpiktas

Réponses:

24

Sûr. Voir ici pour une explication plus détaillée: http://www.public.iastate.edu/~mlamias/LeapYear.pdf .

Mais essentiellement, l'auteur conclut: "Il y a 485 années bissextiles en 2 millénaires. Donc, en 2 millénaires, il y a jours au total. De ces jours, le 29 février se produit en 485 d'entre eux (les années bissextiles), la probabilité est donc de "485 / 730 485 = 0,0006639424485(366)+(2000-485)(365)=730485485/730485=0.0006639424

StatsStudent
la source
9
Pourquoi ne peut-il pas être calculé comme 1 / (nombre de jours en 4 ans) = 1/1461 = 0,00068 ?
Siddhesh
21
@Siddhesh Il existe une règle concernant les siècles. Par exemple, 2100 n'est pas une année bissextile
Rentrop
8
@Siddhesh, Malheureusement, ce n'est pas aussi simple que cela. Des années bissextiles un peu plus complexes. La durée moyenne d'une année est en moyenne de 365,2425 jours et non de 365,25. Comme écrit sur la page de l'année bissextile de wikipedia, "Le calendrier grégorien... Supprime trois jours bissextiles tous les 400 ans, ce qui correspond à la durée de son cycle bissextile. Cela se fait en supprimant le 29 février dans les années de trois siècles (multiples de 100). qui ne peut pas être exactement divisé par 400. [3] Les années 2000 et 2400 sont des années bissextiles, tandis que 1800, 1900, 2100, 2200, 2300 et 2500 sont des années communes. "
StatsStudent
10
Je ne vois pas pourquoi vous devez considérer 2000 ans; les années bissextiles sont sur un cycle de 400 ans, alors pourquoi ne pas simplement réduire à "il y a 97 années bissextiles en 400 ans"?
Philip Kendall
7
Pourquoi devrions-nous considérer ces influences mineures comme des jours bissextiles «annulés» au cours des années du siècle, non pas des multiples de 400 mais, en revanche, ne pas tenir compte des influences externes, telles que presque toutes les naissances retardées ou introduites avant le 29 février, juste pour économiser l'enfant de la gêne occasionnée (ou pour d'autres raisons)? - Au moins ici en Allemagne, la probabilité qu'une naissance se produise n'importe quel 29 février est (estimée) presque nulle.
Je suis avec Monica le
23

Pour prédire avec précision cette probabilité à l'aide de statistiques, il serait utile de savoir où la naissance a eu lieu.

Cette page http://chmullig.com/2012/06/births-by-day-of-year/ a un graphique montrant un sous-ensemble du nombre de naissances par jour (multipliant le 29 par 4, ce qui est incorrect et indésirable pour cette question, mais il renvoie également aux données originales et donne une indication approximative de ce à quoi vous pouvez vous attendre) aux États-Unis. Je suppose que cette courbe ne s'applique pas aux autres pays, et surtout pas aux autres continents. En particulier, l'hémisphère sud et la région équatoriale peuvent montrer une dérivation substantielle de ces résultats - en supposant que le climat est un facteur déterminant.

En outre, il y a la question de la "naissance élective" (évoquée par les auteurs de http://bmjopen.bmj.com/content/3/8/e002920.full ) - dans les régions les plus pauvres du globe, je m'attendrais à une autre distribution des naissances, tout simplement parce que les césariennes (non urgentes) ou les naissances provoquées sont plus rares que dans les pays développés. Cela fausse la distribution finale des naissances.

En utilisant les données américaines, en supposant ~ 71 millions de naissances (moyenne graphique approximative * 366) et 46 000 naissances le 29 février, sans correction de la distribution des années bissextiles dans les données, car la période précise n'est pas indiquée, j'arrive à une probabilité de environ ~ 0,000648. Ce chiffre est légèrement inférieur à la valeur à laquelle on peut s'attendre compte tenu d'une distribution uniforme des naissances, et donc conforme à l'impression générale donnée par le graphique.

Je vais laisser un test de signification de cette estimation approximative à un lecteur motivé. Mais étant donné que le 29 (bien que non corrigé - l'an 2000 injecte un biais inférieur à la moyenne dans les données) obtient des scores faibles même pour les normes de février déjà faibles, je suppose une confiance relativement élevée que l'hypothèse nulle de distribution égale peut être rejetée.

Rick Moritz
la source
1
L'ensemble de données comprend les dates de naissance des 30 et 31 février. Ca c'est drôle. Il a besoin d'un bon nettoyage avant l'analyse, mais il contient beaucoup de données, ce qui est excellent.
Aksakal
22

Je pense que la réponse à cette question ne peut être qu'empirique. Toute réponse théorique serait imparfaite sans tenir compte des phénomènes de sélection d'anniversaire, de saisonnalité, etc.

Les données d'anniversaire sont difficiles à trouver aux États-Unis pour des raisons de confidentialité. Il y a un ensemble de données anonyme ici . Cela provient des demandes d'assurance aux États-Unis. La différence avec d'autres rapports, comme un article populaire du NYT souvent cité , est qu'il répertorie la fréquence des naissances par date, au lieu d'un simple classement des jours dans l'année. Le point faible est bien sûr le biais d'échantillonnage, car il provient de l'assurance: les personnes non assurées ne sont pas incluses, etc.

Selon les données, il y a eu 325 naissances au 29 février sur un total de 481040. Selon Roy Murphy , l'échantillon s'étend de 1981 à 1994. Il comprend 3 années bissextiles sur un total de 14 ans. Sans aucun ajustement, la probabilité serait de 0,0675% d'être né le 29 février entre 1981 et 1994.

Vous pouvez régler la probabilité en tenant compte de la fréquence des années bissextiles, qui est proche de 1/4 ( pas exactement bien ), par exemple en multipliant ce nombre par pour arriver à l' estimation 0,079% de . Ici, la probabilité conditionnelle p de naître le 29 février d'une année bissextile est liée à la fréquence observée F o = 325 par la fréquence f L = 3 des années bissextiles dans un échantillon: F o = f L / N F p ,N = 1414/12pFo=325FL=3

Fo=FL/NFp,
N=14est le nombre d'années dans un échantillon, et est la fréquence totale des naissances.F=481040

En règle générale, la probabilité d'années bissextiles est , par conséquent, la probabilité moyenne long terme P L d'être né le 29 févr est: P L = p Lp p LNpL1/4PL

PL=pLppLNFLFoF0,079%

Vous pourriez être intéressé par la probabilité conditionnelle d'être né le 29 février étant donné que vous êtes né l'année bissextile: p = Np

p=NFLFoF0,32%

Ainsi, le lien entre et p est basé sur quelques hypothèses, par exemple que la probabilité de naître au cours d'une année donnée est uniforme et ne change pas.PLp

Bien sûr, cette discussion était centrée sur les États-Unis. Qui sait quelles sont les tendances dans d'autres pays.

MISE À JOUR: Nous avons automatiquement supposé que OP est le calendrier grégorien. Cela devient encore plus intéressant si vous considérez différents calendriers tels que le calendrier lunaire Hijri , où les années bissextiles sont tous les 30 ans environ.

MISE À JOUR 2:

pFp=1,527Amitabh Chandra, Harvard University

Maintenant, quelle est la probabilité que des jours très particuliers dans le calendrier grégorien: le 1er janvier, le 25 décembre et le 29 décembre viennent au hasard comme les anniversaires les plus populaires? Je dis qu'il est hautement improbable qu'un événement aléatoire. Par conséquent, il est encore plus intéressant de voir ce qui se passe dans d'autres calendriers tels que Hijri.

MISE À JOUR 3:

PL,p

p^1/3660,27
P^Lp366365*4+10,068

MISE À JOUR 4:

χ2

14*365+3

d=[0101 1482
...
1231 1352];
%%
tc = sum(d(:,2)); % total obs

idL = 60; % index of Feb 29

% theor frequency, assuming uniform
ny = 1994 - 1981 + 1; % num of years
nL = 3; % # of leap years: 1984, 1988, 1992
nd = 365*ny + nL; % total # of days

fc = tc/nd; % expected freq for calendar date in sample
td = ones(366,1)*fc*ny; % roll the dates into day of year
td(idL) = fc*nL;

fprintf(1,'non-leap day expected freq: %f\n',td(end))
fprintf(1,'leap day expected freq: %f\n',td(idL))
fprintf(1,'non-leap day average freq: %f\n',mean(d([1:idL-1 idL+1:end],2)))
fprintf(1,'non-leap day freq std dev: %f\n',std(d([1:idL-1 idL+1:end],2)))
fprintf(1,'leap day observed freq: %f\n',d(idL,2))

% plots
bar(d(:,2))
hold on
plot(td,'r')
legend('empirical','theoretical')
title('Distribution of birth dates 1981-1994')
set(gca,'XTick',1:30:366)
set(gca,'XTickLabels',[num2str(floor(d(1:30:366,1)/100)) repmat('/',13,1) num2str(rem(d(1:30:366,1),100))])
grid on

% chi^2 test
[h p]=chi2gof(d(:,2),'Expected',td)

SORTIE:

non-leap day expected freq: 1317.144534
leap day expected freq: 282.245257
non-leap day average freq: 1317.027397
non-leap day freq std dev: 69.960227
leap day observed freq: 325.000000

h =

     1


p =

     0

entrez la description de l'image ici

Aksakal
la source
3
C'est une analyse utile (+1). Cela me fait me demander quel lien, le cas échéant, existe entre les fréquences que vous analysez et la probabilité (vaguement définie) demandée dans la question.
whuber
1
@whuber, les probabilités dans ma réponse sont pour des cas comme l'analyse des demandes d'assurance ou certaines données utilisateur. Par exemple, vous avez un site Web et souhaitez signaler les données utilisateur problématiques. Vous pouvez comparer la fréquence des anniversaires du 29 février avec mes probabilités. Cependant, si vous planifiez une famille et posez cette question, mes chiffres sont inutiles, à peu près. La raison en est qu'ils ne tiennent pas compte de facteurs tels que le moment où le couple copule réellement ou la fécondité et les modèles de période des couples, par exemple, qui est le principal déterminant de la date de naissance.
Aksakal
Heureux de voir que vous n'avez pas commencé avec les mathématiques avant d'envisager d'autres facteurs, au-delà des statistiques pures
TheBlastOne
8

La couverture de mon livre préféré fournit des preuves très pertinentes contre l'hypothèse d'une attribution uniforme des naissances aux dates. Plus précisément, les naissances aux États-Unis depuis 1970 présentent plusieurs tendances superposées: une longue tendance pluriannuelle, une tendance non périodique, des tendances de jour de la semaine, des tendances de jour d'année, des tendances de vacances (parce que des procédures comme la césarienne permettent de planifier efficacement la date de naissance, et les médecins ne le font souvent pas en vacances). Le résultat est que la probabilité de naître un jour choisi au hasard dans une année n'est pas uniforme, et parce que le taux de natalité varie d'une année à l'autre, toutes les années ne sont pas également probables.

Cela prouve également que la solution d'Asksal, tout en étant un concurrent très solide, est également incomplète. Un petit nombre de jours bissextiles seront «contaminés» par tous les effets hors jeu ici, donc l'estimation d'Asksal capture également (tout à fait par accident) l'effet des tendances de jour de la semaine et à long terme avec le 29 février. effet. Les effets qui sont et ne sont pas appropriés à inclure ne sont pas clairement définis par votre question.

Et cette analyse n'a d'incidence que sur les États-Unis, qui ont des tendances démographiques qui pourraient être très différentes des autres nations ou populations. Le taux de natalité au Japon est en baisse depuis des décennies, par exemple. Le taux de natalité de la Chine est réglementé par l'État, avec certaines conséquences pour la composition par sexe de son pays et donc les taux de natalité dans les générations suivantes.

De même, l'analyse de Gelman ne décrit que plusieurs décennies récentes, et il n'est pas nécessairement clair que c'est même l'époque qui intéresse votre question.

entrez la description de l'image ici

Pour ceux qui se passionnent pour ce genre de choses, le contenu de la couverture est longuement discuté dans le chapitre sur les processus gaussiens.

Sycorax dit Réintégrer Monica
la source
2
Une brève description du modèle utilisé dans également disponible dans le blog ici: andrewgelman.com/2012/06/19/…
Sakari Cajanus
3

Le 29 février est une date qui se produit chaque année qui est un multiple de 4 .

Cependant, les années qui sont un multiple de 100 mais qui ne sont pas l'une des 400 ne sont pas considérées comme des années bissextiles (par exemple: 1900 n'est pas une année bissextile alors que 2000 ou 1600 le sont). Par conséquent, de nos jours, c'est la même tendance tous les 400 ans.

Faisons donc le calcul sur un intervalle [0; 400 [ :

Sur une période de 400 ans, il y a exactement 4 x 25 = 100 ans qui sont un multiple de 4 . Mais nous devons soustraire 3 (multiple de 100 mais pas 400) de 100, et nous obtenons 100 - 3 = 97 ans.

Maintenant , nous devons multiplier 97 par 366, 97 x 366 = 35502 (nombre de jours dans une année bissextile dans une période de 400 ans), il reste (365 x (400-97)) = 110 595 (nombre de jours aren » t dans une année bissextile sur une période de 400 ans).

Ensuite , il suffit d'ajouter ces deux chiffres afin de connaître le nombre total de jours dans une période de 400 ans: 110 595 + 35502 = 146 097 .

Pour finir, notre probabilité est le nombre de 29 février sur une période de 400 ans donc 97 étant donné qu'il y a 97 années bissextiles divisées par le nombre total de jours de notre intervalle:

p = 97/146097 ≈ 0,0006639424492

J'espère que c'est juste et clair.

Jonathan Poid
la source
7
Il s'agit d'une belle analyse de la chance qu'une date choisie au hasard soit le 29 février. Je crois que la plupart des discussions dans ce fil se concentrent sur le fait que cela ne répond pas réellement aux questions sur les chances de naissances, qui ne se comportent pas vraiment comme des tirages aléatoires de l'ensemble des jours possibles.
whuber
1
Un moyen beaucoup plus simple consiste à dire qu'il y a 97 années bissextiles pour 400 ans comme vous l'avez déjà fait. Calculez le nombre de jours en 400 années normales. 400 * 365 = 146000. Ensuite, vous devez ajouter les 97 jours bissextiles donnant 146097.
CJ Dennis
2

Je pense que deux questions se mélangent ici. L'un est "Quelle est la probabilité qu'un jour donné soit un 29 février?". Le second est (et celui qui a été demandé) "Quelle est la probabilité de naître un jour bissextile?"

p=971460970,00066394

3149740097400143=6796001.131667

01

data_enthusiast
la source
2
Euh, j'étais prêt à voter pour cela, puis je suis arrivé à Well, pour toute personne déjà née, c'est facile. C'est 0 ou 1. Non.
mattdm
Je suppose que cela dépend un peu de l'interprétation des probabilités. Supposons que j'ai lancé une pièce. Je l'ai regardé et je connais le résultat (par exemple, les têtes). Vous vous tenez à côté de moi, mais vous n'avez pas vu le résultat. Quelle est la probabilité que la pièce montre des têtes (pour vous, pour moi, "objectivement")? Dans l'exemple ci-dessus: pour la personne (née) donnée, la probabilité est soit 0 soit 1 (en supposant qu'il sache à quelle date il est né). Si vous choisissez une personne au hasard et que vous deviez deviner son anniversaire, la probabilité que ce soit un 29 février est une question empirique.
data_enthusiast
1

J'ai remarqué que la plupart des réponses ci-dessus fonctionnent en calculant le nombre de jours bissextiles dans une période particulière. Il existe un moyen plus simple d'obtenir la réponse, à 100% avec précision, par définition:

Nous utilisons les années bissextiles pour ajuster le calendrier régulier (365 jours) à l'année tropicale moyenne (aka année solaire moyenne). L'année tropicale moyenne "est le temps que prend le Soleil pour revenir à la même position dans le cycle des saisons, vu de la Terre" (Wikipedia). L'année tropicale varie légèrement, mais l'année tropicale moyenne (moyenne) est d'environ 365,24667.

Si les jours bissextiles sont corrects, alors la probabilité qu'un jour choisi au hasard soit un jour bissextile est ((année tropicale) - (année non bissextile)) / année tropicale

En insérant le nombre approximatif que nous avons, il s'agit de (365.24667-365) /365.24667, ou 0.24667 / 365.24667, ou 675 par million (0,0675%).

Il s'agit cependant d'un jour choisi au hasard. J'imagine que cela est considérablement biaisé par les parents qui préfèrent ne pas avoir à expliquer à leurs enfants, "votre anniversaire réel ne vient qu'une fois tous les 4 ans".

AMADANON Inc.
la source
3
Je ne pense pas que cela réponde à la question posée, car le jour bissextile, le 29 février, n'existe que dans certains systèmes de calendrier. Ces systèmes de calendrier n'ont été utilisés que dans certaines sociétés au cours des dernières époques historiques. Par exemple, cette question n'est pas intelligible pour quelqu'un qui compte le temps en utilisant le calendrier hébreu, qui n'a pas de "février" du tout! De plus, même si nous supposons un calendrier avec un jour bissextile, cela ne résout toujours pas l'indétermination entourant la distribution de probabilité des naissances aux jours.
Sycorax dit Réintégrer Monica
@ user777, ce n'est pas pertinent. Si vous appartenez à une culture qui ne reconnaît pas le jour bissextile, il y aurait encore des individus qui sont nés sur notre jour bissextile.
Octopus
1
@Octopus Pas s'ils sont nés avant octobre 1582, le mois où le calendrier grégorien a été introduit. La question n'est pas suffisamment précise pour permettre de discerner quelles populations sont à l'étude, c'est pourquoi mon commentaire est d'une importance critique.
Sycorax dit Réintégrer Monica
@ user777, vous divisez les cheveux. Le fait est que le calendrier grégorien existe aujourd'hui et qu'il peut être utilisé pour placer chaque jour dans l'histoire, qu'il l'ait observé ou non à ce moment-là.
Octopus
1
@Octopus Comment savez-vous que c'est le but?
Sycorax dit Réintégrer Monica
-4

J'ai demandé à ma sœur, dont l'anniversaire est le 29 février, et elle a répondu: "Le résultat de ma propre étude empirique est qu'il est de 1,00, évidemment."

John Smith
la source
Eh bien, il semble que cela n'ait pas été apprécié. C'est noté.
John Smith