Aidez-moi à calculer le nombre de personnes qui assisteront à mon mariage! Puis-je attribuer un pourcentage à chaque personne et les ajouter?

37

Je prépare mon mariage. Je souhaite estimer combien de personnes viendront à mon mariage. J'ai créé une liste de personnes et la possibilité qu'elles assistent en pourcentage. Par exemple

Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30%

J'ai une liste d'environ 230 personnes avec des pourcentages. Comment puis-je estimer le nombre de personnes qui assisteront à mon mariage? Puis-je simplement additionner les pourcentages et les diviser par 100? Par exemple, si j'invite 10 personnes avec chacune 10% de chance de venir, je peux m'attendre à 1 personne? Si j'invite 20 personnes avec 50% de chance de venir, puis-je en attendre 10?

MISE À JOUR: 140 personnes sont venues à mon mariage :). En utilisant les techniques décrites ci-dessous, je prédis environ 150. Pas trop minable!

Behacad
la source
43
Je ne vois aucun chiffre pour la personne que vous épousez. C'est la quantité la plus importante.
Nick Cox
6
J'ai utilisé votre technique pour mon mariage et cela a bien fonctionné; nous avions prédit environ 80 personnes et en avons eu environ 85. Je remarque qu'une fois que vous avez toutes ces personnes dans votre feuille de calcul, vous pouvez également utiliser la même feuille de calcul pour suivre, par exemple, les destinataires auxquels vous avez envoyé des remerciements, etc.
Eric Lippert
2
Pertinent: timharford.com/2013/10/guest-list-angst-a-statistical- approroach . Pour ce que cela vaut, j'ai choisi le lien vers le blog personnel de l'auteur, mais l'article est tiré de sa chronique dans le Financial Times.
Steve Jessop
@ EricLippert J'ai essayé quelque chose de similaire pour mon mariage, mais je n'ai pas eu autant de succès. Il y avait un orage très violent le jour de et tout le monde <30% avec un trajet d'une heure ou plus n'apparaissait pas.
OSE
3
@ NickCox En outre, ils ont oublié leur propre.
JFA

Réponses:

32

En supposant que les décisions des invités de venir au mariage soient indépendantes, le nombre d'invités qui viendront au mariage peut être modélisé comme la somme de variables aléatoires de Bernoulli qui n'ont pas nécessairement des probabilités de succès identiques. Cela correspond à la distribution binomiale de Poisson .

Soit une variable aléatoire correspondant au nombre total de personnes qui participeront à votre mariage sur personnes invitées. Le nombre attendu de participants est en effet la somme des probabilités individuelles '' show-up '' , soit La dérivation des intervalles de confiance n'est pas simple compte tenu de la forme de la fonction de masse de probabilité . Cependant, ils sont faciles à estimer avec les simulations de Monte Carlo .XNpi

E(X)=i=1Npi.

La figure suivante montre un exemple de répartition du nombre de participants au mariage basé sur 10 000 scénarios simulés (à droite) à l'aide de fausses probabilités de présentation pour les 230 invités (à gauche). Le code R utilisé pour exécuter cette simulation est présenté ci-dessous; il fournit des approximations des intervalles de confiance.

entrez la description de l'image ici

## Parameters
N      <- 230    # Number of potential guests
nb.sim <- 10000  # Number of simulations

## Create example of groups of guests with same show-up probability
set.seed(345)
tmp    <- hist(rbeta(N, 3, 2), breaks = seq(0, 1, length.out = 21))
p      <- tmp$breaks[-1]    # Group show-up probabilities
n      <- tmp$counts        # Number of person per group

## Generate number of guests by group
guest.mat <- matrix(NA, nrow = nb.sim, ncol = length(p))
for (j in 1:length(p)) {
    guest.mat[, j] <- rbinom(nb.sim, n[j], p[j])
}

## Number of guest per scenario
nb.guests <- apply(guest.mat, 1, sum)

## Result summary
par(mfrow = c(1, 2))
barplot(n, names.arg = p, xlab = "Probability group", ylab = "Group size")
hist(nb.guests, breaks = 21, probability =  TRUE, main = "", xlab = "Guests")
par(mfrow = c(1, 1))

## Theoretical mean and variance
c(sum(n * p), sum(n * p * (1-p)))
#[1] 148.8500  43.8475

## Sample mean and variance
c(mean(nb.guests), var(nb.guests))
#[1] 148.86270  43.23657

## Sample quantiles
quantile(nb.guests, probs = c(0.01, 0.05, 0.5, 0.95, 0.99))
#1%     5%    50%    95%    99% 
#133.99 138.00 149.00 160.00 164.00 
QuantIbex
la source
1
Wow c'est fantastique. Quel genre de simulation est-ce exactement?
Behacad
4
C'est une simulation de Monte Carlo
QuantIbex
Comment transformez-vous la "taille du groupe" en nombre d'invités? J'ai une figure comme la tienne à gauche, mais je ne sais pas comment la transformer en figure de droite ...
Behacad
Cela se fait aux lignes 11 à 18 du code fourni dans la réponse. Pour le scénario j, je génère le nombre de "présentations" pour chacun des 20 groupes de probabilité en utilisant une distribution binomiale et la probabilité d'apparition de ce groupe.
QuantIbex
18

Comme il a été souligné, les attentes ajoutent simplement.

Cependant, sachant que l’attente n’est pas très utile, vous devez également avoir une idée de la variation probable autour de cette attente.

Vous devez vous préoccuper de trois choses:

  • variation des individus autour de leurs attentes (une personne avec 60% de chance de venir n'atteint pas ses attentes; elle est toujours au-dessus ou au-dessous)

  • dépendance entre les gens. Les couples qui pourraient venir tous les deux tendent à être soit présents, soit non plus. Les jeunes enfants ne participeront pas sans leurs parents. Dans certains cas, certaines personnes peuvent éviter de venir si elles savent qu'une autre personne sera présente.

  • erreur dans l'estimation des probabilités. Ces probabilités ne sont que des suppositions; vous voudrez peut-être examiner l'effet de suppositions quelque peu différentes (peut-être l'évaluation de ces chiffres par une autre personne)

Le premier est sujet au calcul, soit par approximation normale, soit par simulation. La seconde peut être simulée sous différentes hypothèses, soit spécifiques aux personnes, soit en considérant une distribution de dépendances. (Le troisième élément est plus difficile.)


Edité pour répondre aux questions suivantes dans les commentaires:

Si je comprends bien votre formulation, pour la famille de 4 personnes, vous avez 50% de chance que chacune des 4 personnes ou aucune ne vienne. C'est un nombre attendu de 2, certes, mais vous voudriez également avoir une idée de la variabilité autour des attentes, auquel cas vous voudrez probablement conserver la situation réelle de 50% à 0/50% de 4.

Si vous pouvez partitionner tout le monde en groupes indépendants, une bonne première approximation (avec beaucoup de tels groupes) serait alors d’ajouter les moyennes et les variances entre groupes indépendants, puis de traiter la somme comme normale (avec éventuellement une correction de continuité). Une approche plus précise consisterait à simuler le processus ou à calculer la distribution avec précision par convolution numérique; Bien que les deux approches soient simples, il s'agit d'un niveau de précision inutile pour cette application particulière, car il existe déjà de nombreuses couches d'approximation. C'est comme si on vous disait les dimensions d'une pièce au pied le plus proche, puis de calculer la quantité de peinture nécessaire. au millilitre près - la précision supplémentaire est inutile.

Alors imaginez (pour simplifier) ​​nous avions quatre groupes:

1) groupe A (1 individu) - 70% de chances d'assiduité

2) groupe B (1 personne) - 60% de chances d'assiduité

3) groupe C (famille de 4) - 0: 0,5 4: 0,5 (si quelqu'un reste à la maison, personne ne viendra)

4) groupe D (couple de 2) - 0: 0,4 1: 0,1 2: 0,5 (soit 50% de chance pour les deux, plus 10% de chance que l'un d'eux vienne exactement, par exemple si l'autre a des obligations professionnelles ou est malade)

Ensuite, nous obtenons les moyennes et les variances suivantes:

      mean   variance
  A    0.7     0.21
  B    0.6     0.24
  C    2.0     4.0
  D    1.1     0.89

 Tot   4.4     5.34

Donc, une approximation normale sera assez approximative dans ce cas, mais suggérerait que plus de 7 personnes seraient assez improbables (de l'ordre de 5%), et que 6 ou moins se produiraient environ 75 à 80% du temps.

[Une approche plus précise consisterait à simuler le processus, mais pour le problème dans son ensemble plutôt que pour l'exemple réduit, cela est probablement inutile étant donné qu'il existe déjà de nombreuses couches d'approximation.]


Une fois que votre distribution combinée intègre de telles dépendances de groupe, vous pouvez ensuite appliquer toutes les sources de dépendance conjointe globale (telles que les intempéries) - ou simplement vous assurer contre les éventualités, voire les ignorer, en fonction des circonstances. .

Glen_b -Reinstate Monica
la source
5
+1 pour mentionner les dépendances. Celles-ci surviennent pour des raisons autres que les relations interpersonnelles, telles que la météo et les conditions de voyage. Beaucoup d'entre eux induisent des corrélations positives, ce qui élargit le champ d'incertitude. Si les estimations sont utilisées pour fournir une logistique (repas, sièges, etc.), il est utile d’évaluer la variation avec précision. Bien que dans une application de mariage, on ne peut pas faire plus que de faire une supposition éclairée, une compréhension qualitative de ces phénomènes statistiques peut conduire à de meilleures suppositions.
whuber
@whuber Point intéressant sur les autres sources de dépendance, telles que la météo. Dans certaines circonstances, de telles choses peuvent facilement submerger les effets que je mentionne.
Glen_b -Reinstate Monica
Comment pourrais-je facilement prendre en compte la dépendance? Par exemple, si je connais un couple avec deux enfants et que je m'attends à ce que les parents aient environ 50% de chances de venir. Je sais qu'ils vont amener leurs enfants s'ils viennent. Pouvons-nous attribuer 50% à chaque personne et présumer que deux personnes vont venir?
Behacad
2
@ Behacad: Si vous savez que c'est une question de tout ou rien avec un groupe donné, vous pouvez simplement estimer la probabilité que le groupe vienne comme une seule unité et pondérer le groupe en fonction du nombre d'individus qu'il contient. Je conviens qu'il serait bon d'inclure également des marges d'erreur dans vos estimations.
Nick Stauner
Merci. J'ai un petit tableau avec les pourcentages et le nombre de personnes avec ce pourcentage, mais je ne sais pas exactement quoi faire maintenant. Quels moyens devrais-je ajouter? Quels écarts? (100% -52, 90% -21, 80% -34, 70% -16,60% -32,50% -35,40% -25,30% -11,20% -22,10% -15 , 0% à 9)
Behacad le
5

(Ignorez mon commentaire précédent. Je viens de me rendre compte que je confondais l'attente avec autre chose.) Étant donné que vous essayez essentiellement de trouver l'espérance du nombre de personnes qui se présentent, vous pouvez théoriquement ajouter la probabilité que chaque personne se présente. pour le faire.

Ceci est dû au fait que nous pouvons considérer une personne prenant la valeur ou et que l'attente est un opérateur linéaire.01

Cependant, cela ne vous donne que la valeur attendue - sans autres hypothèses, il semblerait difficile d'estimer des facteurs tels que la variance des personnes qui se présentent, d'autant qu'il est assez juste de supposer que la personne A qui apparaît n'est pas nécessairement indépendante de la personne B qui se présente.

Cela mis à part, voici un article vaguement pertinent de la BBC.


la source
Merci! Donc, pour confirmer, si je pense que 10 personnes ont 10% de chances de venir, je suppose que 1 personne viendra, par exemple.
Behacad
En théorie, oui, mais il semble difficile de construire quelque chose de plus utile (par exemple, des intervalles de confiance) sans autres hypothèses.
Merci. Comment pourrais-je arriver à des intervalles de confiance?
Behacad
Je ne suis pas tout à fait sûr pour un certain nombre de raisons. (Je devrais probablement passer plus de temps à chercher certaines choses pour donner une réponse plus détaillée à ce sujet.)
4

Pour les grands nombres, 80% est ce que vous attendez. Il peut s’agir d’une situation dans laquelle une analyse détaillée, telle que vous la proposez, n’ajoute que des erreurs dans les calculs.
Par exemple, la présence potentielle de Marc est-elle vraiment un tiers de celle de Joseph? Et Joseph est-il vraiment 30%, ou est-ce que ce serait 25%? Les choses se passent lorsque vous atteignez des nombres importants qui rendent simplement 80% plus valide que toute cette analyse. Je viens de rentrer d'un mariage. 550 invités. 452 ont assisté. Afin de planifier la salle et de commencer à parler au traiteur, l'estimation initiale de 440 était correcte.

Puis-je offrir une ligne de mon toast au couple? "Souviens-toi, si ta femme est heureuse mais que tu n'es pas heureuse, tu es toujours beaucoup plus heureuse que si ta femme est malheureuse, mais tu es heureuse."

JTP - Mes excuses à Monica
la source
Merci! Une des préoccupations est que les gens vont venir de partout et de différentes distances. Certains assez loin, d'autres juste en bas de la rue.
Behacad le
3
Ce chiffre pourrait dépendre de la culture.
Juho Kokkala
@ Juho - c'est peut-être. Je suis aux États-Unis et, dans mon exemple récent, c'était un mariage de destination pour environ la moitié des invités, le mariage se déroulant dans la ville natale de la mariée. Je me demande quelles différences culturelles auraient un impact sur le taux de participation, mais je suppose que vous avez raison.
JTP - présente ses excuses à Monica le
4
C'est un exemple merveilleux d'estimateur qui existe en théorie mais qui semble inhabituel en pratique (jusqu'à ce que vous cherchiez ce genre de chose): pour tout ensemble de données, il retourne un nombre prédéterminé (80% dans ce cas). Il est facile à calculer, très peu coûteux (les coûts de collecte de données peuvent être réduits à zéro) et a une variance nulle. C'est Bayes (pour un prieur atomique) et admissible. Il restera toujours des questions épineuses sur son parti pris et sa cohérence qui peuvent être difficiles à traiter et ne disparaîtront pas en évitant une "analyse détaillée".
whuber
2

En tant que statisticien qui vient de se marier, je vous dirai que JoeTaxpayer a la bonne réponse. Le chiffre de 80% me semble un peu élevé, mais pourrait être exact si la plupart des gens sont locaux (notre mariage était une destination et nous avons atterri plus près de 65%).

Néanmoins, vous supposez que les probabilités préalables auxquelles assistent les gens varient beaucoup, je pense, plus que ce qui existe réellement. En supposant que vous n'invitiez pas des personnes qui ne vous aiment pas activement, vous devriez supposer que presque tout le monde viendra pour qui cela est dans la mesure de ses moyens et qu'il n'y a pas de conflit (au sens large), mais au moins 10 à 20% Aura quelque chose qui les empêche de participer. Pour ceux qui doivent voyager, cela augmente le temps et l'argent nécessaires, donc 30 à 35% des voyageurs n'assisteront pas (en fonction de la distance). Sinon, maintenez les probabilités constantes (même si vos parents disent "Oh, untel ne volera pas jusqu'à Austin, nous voulons simplement les inviter ..."). Si vous avez une réception amusante, en particulier avec un bar ouvert, les gens ne l'oublieront généralement que s'ils sont obligés de le faire.

Quoi qu'il en soit, félicitations pour votre mariage. Maintenant, en ce qui concerne la probabilité que vous restiez marié, ceci est toujours une bonne lecture: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf

:-)

Mike Nute
la source
1

Additionnez toutes les probabilités, c'est votre nombre attendu de personnes.

Vous avez i = 1..N événements, chacun ayant la probabilité . Le nombre attendu de personnes à venir est , où - variable indicatrice égale à 1 si une personne se présente et zéro sinon.Pii1iPi1i

Bien entendu, nous supposons que le fait que quelqu'un vienne ou non ne dépende pas de la présence des autres. Cette hypothèse est tout simplement fausse. Considérons les couples, ils sont fortement corrélés.

Comme vous ne disposez pas de données sur les corrélations, le mieux que vous puissiez faire est de traiter les couples comme une unité, c'est-à-dire , où est la probabilité que le couple se présente.2×1iPiPi

Aksakal
la source
1

Pour mon mariage, j'ai dressé deux listes: susceptible d'y assister (80%) et peu probable d'assister (20%). Indépendamment de toute évaluation plus précise pour une raison quelconque, j'ai affecté toutes les personnes invitées à l'un des deux groupes. J'étais par 2 personnes. N = 1. Purement heuristique.

michaelcarniol
la source
Puis-je demander? Quel a été le dernier% de participation?
JTP - présente ses excuses à Monica le
72% ont répondu oui, mais j'oublie le nombre de jours d'annulation.
michaelcarniol
0

Je remarque que personne n’a souligné qu’il n’était pas nécessaire de diviser par 100. Vos pourcentages peuvent être considérés comme des portions attendues d’une personne, avec la compréhension que, comme le chat de Schrödinger, vous n’obtiendrez pas des parties d’une personne. présent ou non, mais l’état de présence de chaque personne sera entièrement résolu au moment de la manifestation.

Étant donné que la plage de vos pourcentages va de 0% (aucune personne présente) à 100% (toute la personne présente), dans vos deux exemples impliquant 10 et 20 personnes, vous avez résumé la valeur attendue pour la portion de chaque personne à se présenter, et a obtenu un numéro dont les unités étaient des "personnes".

L'équation en évidence dans la superbe réponse de QuantIbex montre que la somme des pourcentages donne le nombre attendu de personnes lors de l'événement, sans division.

Travis Bemrose
la source