Je prépare mon mariage. Je souhaite estimer combien de personnes viendront à mon mariage. J'ai créé une liste de personnes et la possibilité qu'elles assistent en pourcentage. Par exemple
Dad 100%
Mom 100%
Bob 50%
Marc 10%
Jacob 25%
Joseph 30%
J'ai une liste d'environ 230 personnes avec des pourcentages. Comment puis-je estimer le nombre de personnes qui assisteront à mon mariage? Puis-je simplement additionner les pourcentages et les diviser par 100? Par exemple, si j'invite 10 personnes avec chacune 10% de chance de venir, je peux m'attendre à 1 personne? Si j'invite 20 personnes avec 50% de chance de venir, puis-je en attendre 10?
MISE À JOUR: 140 personnes sont venues à mon mariage :). En utilisant les techniques décrites ci-dessous, je prédis environ 150. Pas trop minable!
la source
Réponses:
En supposant que les décisions des invités de venir au mariage soient indépendantes, le nombre d'invités qui viendront au mariage peut être modélisé comme la somme de variables aléatoires de Bernoulli qui n'ont pas nécessairement des probabilités de succès identiques. Cela correspond à la distribution binomiale de Poisson .
Soit une variable aléatoire correspondant au nombre total de personnes qui participeront à votre mariage sur personnes invitées. Le nombre attendu de participants est en effet la somme des probabilités individuelles '' show-up '' , soit La dérivation des intervalles de confiance n'est pas simple compte tenu de la forme de la fonction de masse de probabilité . Cependant, ils sont faciles à estimer avec les simulations de Monte Carlo .X N pi
La figure suivante montre un exemple de répartition du nombre de participants au mariage basé sur 10 000 scénarios simulés (à droite) à l'aide de fausses probabilités de présentation pour les 230 invités (à gauche). Le code R utilisé pour exécuter cette simulation est présenté ci-dessous; il fournit des approximations des intervalles de confiance.
la source
j
, je génère le nombre de "présentations" pour chacun des 20 groupes de probabilité en utilisant une distribution binomiale et la probabilité d'apparition de ce groupe.Comme il a été souligné, les attentes ajoutent simplement.
Cependant, sachant que l’attente n’est pas très utile, vous devez également avoir une idée de la variation probable autour de cette attente.
Vous devez vous préoccuper de trois choses:
variation des individus autour de leurs attentes (une personne avec 60% de chance de venir n'atteint pas ses attentes; elle est toujours au-dessus ou au-dessous)
dépendance entre les gens. Les couples qui pourraient venir tous les deux tendent à être soit présents, soit non plus. Les jeunes enfants ne participeront pas sans leurs parents. Dans certains cas, certaines personnes peuvent éviter de venir si elles savent qu'une autre personne sera présente.
erreur dans l'estimation des probabilités. Ces probabilités ne sont que des suppositions; vous voudrez peut-être examiner l'effet de suppositions quelque peu différentes (peut-être l'évaluation de ces chiffres par une autre personne)
Le premier est sujet au calcul, soit par approximation normale, soit par simulation. La seconde peut être simulée sous différentes hypothèses, soit spécifiques aux personnes, soit en considérant une distribution de dépendances. (Le troisième élément est plus difficile.)
Edité pour répondre aux questions suivantes dans les commentaires:
Si je comprends bien votre formulation, pour la famille de 4 personnes, vous avez 50% de chance que chacune des 4 personnes ou aucune ne vienne. C'est un nombre attendu de 2, certes, mais vous voudriez également avoir une idée de la variabilité autour des attentes, auquel cas vous voudrez probablement conserver la situation réelle de 50% à 0/50% de 4.
Si vous pouvez partitionner tout le monde en groupes indépendants, une bonne première approximation (avec beaucoup de tels groupes) serait alors d’ajouter les moyennes et les variances entre groupes indépendants, puis de traiter la somme comme normale (avec éventuellement une correction de continuité). Une approche plus précise consisterait à simuler le processus ou à calculer la distribution avec précision par convolution numérique; Bien que les deux approches soient simples, il s'agit d'un niveau de précision inutile pour cette application particulière, car il existe déjà de nombreuses couches d'approximation. C'est comme si on vous disait les dimensions d'une pièce au pied le plus proche, puis de calculer la quantité de peinture nécessaire. au millilitre près - la précision supplémentaire est inutile.
Alors imaginez (pour simplifier) nous avions quatre groupes:
1) groupe A (1 individu) - 70% de chances d'assiduité
2) groupe B (1 personne) - 60% de chances d'assiduité
3) groupe C (famille de 4) - 0: 0,5 4: 0,5 (si quelqu'un reste à la maison, personne ne viendra)
4) groupe D (couple de 2) - 0: 0,4 1: 0,1 2: 0,5 (soit 50% de chance pour les deux, plus 10% de chance que l'un d'eux vienne exactement, par exemple si l'autre a des obligations professionnelles ou est malade)
Ensuite, nous obtenons les moyennes et les variances suivantes:
Donc, une approximation normale sera assez approximative dans ce cas, mais suggérerait que plus de 7 personnes seraient assez improbables (de l'ordre de 5%), et que 6 ou moins se produiraient environ 75 à 80% du temps.
[Une approche plus précise consisterait à simuler le processus, mais pour le problème dans son ensemble plutôt que pour l'exemple réduit, cela est probablement inutile étant donné qu'il existe déjà de nombreuses couches d'approximation.]
Une fois que votre distribution combinée intègre de telles dépendances de groupe, vous pouvez ensuite appliquer toutes les sources de dépendance conjointe globale (telles que les intempéries) - ou simplement vous assurer contre les éventualités, voire les ignorer, en fonction des circonstances. .
la source
(Ignorez mon commentaire précédent. Je viens de me rendre compte que je confondais l'attente avec autre chose.) Étant donné que vous essayez essentiellement de trouver l'espérance du nombre de personnes qui se présentent, vous pouvez théoriquement ajouter la probabilité que chaque personne se présente. pour le faire.
Ceci est dû au fait que nous pouvons considérer une personne prenant la valeur ou et que l'attente est un opérateur linéaire.0 1
Cependant, cela ne vous donne que la valeur attendue - sans autres hypothèses, il semblerait difficile d'estimer des facteurs tels que la variance des personnes qui se présentent, d'autant qu'il est assez juste de supposer que la personne A qui apparaît n'est pas nécessairement indépendante de la personne B qui se présente.
Cela mis à part, voici un article vaguement pertinent de la BBC.
la source
Pour les grands nombres, 80% est ce que vous attendez. Il peut s’agir d’une situation dans laquelle une analyse détaillée, telle que vous la proposez, n’ajoute que des erreurs dans les calculs.
Par exemple, la présence potentielle de Marc est-elle vraiment un tiers de celle de Joseph? Et Joseph est-il vraiment 30%, ou est-ce que ce serait 25%? Les choses se passent lorsque vous atteignez des nombres importants qui rendent simplement 80% plus valide que toute cette analyse. Je viens de rentrer d'un mariage. 550 invités. 452 ont assisté. Afin de planifier la salle et de commencer à parler au traiteur, l'estimation initiale de 440 était correcte.
Puis-je offrir une ligne de mon toast au couple? "Souviens-toi, si ta femme est heureuse mais que tu n'es pas heureuse, tu es toujours beaucoup plus heureuse que si ta femme est malheureuse, mais tu es heureuse."
la source
En tant que statisticien qui vient de se marier, je vous dirai que JoeTaxpayer a la bonne réponse. Le chiffre de 80% me semble un peu élevé, mais pourrait être exact si la plupart des gens sont locaux (notre mariage était une destination et nous avons atterri plus près de 65%).
Néanmoins, vous supposez que les probabilités préalables auxquelles assistent les gens varient beaucoup, je pense, plus que ce qui existe réellement. En supposant que vous n'invitiez pas des personnes qui ne vous aiment pas activement, vous devriez supposer que presque tout le monde viendra pour qui cela est dans la mesure de ses moyens et qu'il n'y a pas de conflit (au sens large), mais au moins 10 à 20% Aura quelque chose qui les empêche de participer. Pour ceux qui doivent voyager, cela augmente le temps et l'argent nécessaires, donc 30 à 35% des voyageurs n'assisteront pas (en fonction de la distance). Sinon, maintenez les probabilités constantes (même si vos parents disent "Oh, untel ne volera pas jusqu'à Austin, nous voulons simplement les inviter ..."). Si vous avez une réception amusante, en particulier avec un bar ouvert, les gens ne l'oublieront généralement que s'ils sont obligés de le faire.
Quoi qu'il en soit, félicitations pour votre mariage. Maintenant, en ce qui concerne la probabilité que vous restiez marié, ceci est toujours une bonne lecture: http://users.nber.org/~bstevens/papers/Marital_Stability.pdf
:-)
la source
Additionnez toutes les probabilités, c'est votre nombre attendu de personnes.
Vous avez i = 1..N événements, chacun ayant la probabilité . Le nombre attendu de personnes à venir est , où - variable indicatrice égale à 1 si une personne se présente et zéro sinon.Pi ∑i1iPi 1i
Bien entendu, nous supposons que le fait que quelqu'un vienne ou non ne dépende pas de la présence des autres. Cette hypothèse est tout simplement fausse. Considérons les couples, ils sont fortement corrélés.
Comme vous ne disposez pas de données sur les corrélations, le mieux que vous puissiez faire est de traiter les couples comme une unité, c'est-à-dire , où est la probabilité que le couple se présente.2×1iPi Pi
la source
Pour mon mariage, j'ai dressé deux listes: susceptible d'y assister (80%) et peu probable d'assister (20%). Indépendamment de toute évaluation plus précise pour une raison quelconque, j'ai affecté toutes les personnes invitées à l'un des deux groupes. J'étais par 2 personnes. N = 1. Purement heuristique.
la source
Je remarque que personne n’a souligné qu’il n’était pas nécessaire de diviser par 100. Vos pourcentages peuvent être considérés comme des portions attendues d’une personne, avec la compréhension que, comme le chat de Schrödinger, vous n’obtiendrez pas des parties d’une personne. présent ou non, mais l’état de présence de chaque personne sera entièrement résolu au moment de la manifestation.
Étant donné que la plage de vos pourcentages va de 0% (aucune personne présente) à 100% (toute la personne présente), dans vos deux exemples impliquant 10 et 20 personnes, vous avez résumé la valeur attendue pour la portion de chaque personne à se présenter, et a obtenu un numéro dont les unités étaient des "personnes".
L'équation en évidence dans la superbe réponse de QuantIbex montre que la somme des pourcentages donne le nombre attendu de personnes lors de l'événement, sans division.
la source