Quelle est la distribution des différents dés polyédriques tous lancés en même temps?

15

Prenez les 5 solides platoniciens d'un ensemble de dés Donjons & Dragons. Il s'agit de dés à 4 faces, 6 faces (conventionnel), 8 faces, 12 faces et 20 faces. Tous commencent au numéro 1 et comptent de 1 à leur total.

Roulez-les tous en même temps, prenez leur somme (la somme minimale est de 5, la valeur maximale de 50). Faites-le plusieurs fois. Quelle est la distribution?

De toute évidence, ils tendent vers le bas de gamme, car il y a plus de chiffres plus bas que plus élevés. Mais y aura-t-il des points d'inflexion notables à chaque frontière du dé individuel?

[Edit: Apparemment, ce qui semblait évident ne l'est pas. Selon l'un des commentateurs, la moyenne est de (5 + 50) /2=27,5. Je ne m'attendais pas à ça. J'aimerais toujours voir un graphique.] [Edit2: Il est plus logique de voir que la distribution de n dés est la même que chaque dés séparément, additionnés.]

Marcos
la source
1
Voulez-vous dire quelle est la distribution de la somme des uniformes discrets [1,4]+[1,6]+[1,8]+[1,12]+[1,20] ?
gung - Rétablir Monica
2
Une façon de l'examiner est la simulation. En R: hist(rowSums(sapply(c(4, 6, 8, 12, 20), sample, 1e6, replace = TRUE))). Il ne tend pas vraiment vers le bas de gamme; des valeurs possibles de 5 à 50, la moyenne est de 27,5 et la distribution n'est (visuellement) pas loin de la normale.
David Robinson
2
Mon set D&D a un d10 ainsi que les 5 que vous mentionnez (plus un décader, que je suppose que vous n'incluez pas)
Glen_b -Reinstate Monica
1
Wolfram Alpha calcule exactement la réponse . Voici la fonction de génération de probabilité , à partir de laquelle vous pouvez lire directement la distribution. BTW, cette question est un cas particulier de celui qui est posé et répondu à fond à stats.stackexchange.com/q/3614 et à stats.stackexchange.com/questions/116792 .
whuber
2
@AlecTeal: Facile là-bas, dur à cuire. Si vous faisiez vos recherches, vous verriez que je n'avais pas d'ordinateur pour exécuter moi-même la simulation. Et rouler 100 fois, ne semblait pas aussi efficace pour une question aussi simple.
Marcos

Réponses:

18

Je ne voudrais pas le faire algébriquement, mais vous pouvez calculer le pmf assez simplement (c'est juste une convolution, ce qui est vraiment facile dans une feuille de calcul).

Je les ai calculés dans une feuille de calcul *:

i        n(i)   100 p(i)
5         1     0.0022
6         5     0.0109
7        15     0.0326
8        35     0.0760
9        69     0.1497
10      121     0.2626
11      194     0.4210
12      290     0.6293
13      409     0.8876
14      549     1.1914
15      707     1.5343
16      879     1.9076
17     1060     2.3003
18     1244     2.6997
19     1425     3.0924
20     1597     3.4657
21     1755     3.8086
22     1895     4.1124
23     2014     4.3707
24     2110     4.5790
25     2182     4.7352
26     2230     4.8394
27     2254     4.8915
28     2254     4.8915
29     2230     4.8394
30     2182     4.7352
31     2110     4.5790
32     2014     4.3707
33     1895     4.1124
34     1755     3.8086
35     1597     3.4657
36     1425     3.0924
37     1244     2.6997
38     1060     2.3003
39      879     1.9076
40      707     1.5343
41      549     1.1914
42      409     0.8876
43      290     0.6293
44      194     0.4210
45      121     0.2626
46       69     0.1497
47       35     0.0760
48       15     0.0326
49        5     0.0109
50        1     0.0022

Ici est le nombre de façons d'obtenir chaque total i ; p ( i ) est la probabilité, où p ( i ) = n ( i ) / 46080 . Les résultats les plus probables se produisent moins de 5% du temps.n(i)ip(i)p(i)=n(i)/46080

L'axe des y est la probabilité exprimée en pourcentage. entrez la description de l'image ici

* La méthode que j'ai utilisée est similaire à la procédure décrite ici , bien que les mécanismes exacts impliqués dans sa configuration changent à mesure que les détails de l'interface utilisateur changent (ce message a environ 5 ans maintenant, bien que je l'ai mis à jour il y a environ un an). Et j'ai utilisé un package différent cette fois (je l'ai fait dans Calc de LibreOffice cette fois). Pourtant, c'est l'essentiel.

Glen_b -Reinstate Monica
la source
Étonnant, je ne m'attendais pas du tout à une distribution symétrique. Je ne sais pas pourquoi mon intuition était si éloignée.
Marcos
6
La somme des variables aléatoires symétriques indépendantes est également symétrique dans la distribution.
Glen_b -Reinstate Monica
Belle règle. Est-ce publié quelque part?
Marcos
3
Oui, mais mon point de vue était qu'il était trop insignifiant pour qu'un journal le publie, il ne serait défini que comme un exercice pour un étudiant. Vous pouvez utiliser le fait que la fonction caractéristique d'une variable aléatoire symétrique autour de l'origine est réelle et même (ce que vous pouvez trouver sur la page wikipedia sur la fonction caractéristique ) - eh bien, et je suppose que vous avez besoin de celle -to-one propriété de cfs vs pmfs ainsi, ou utilisez la double relation pour établir qu'un même pair implique également un pmf symétrique ...
Glen_b -Reinstate Monica
2
... et le fait qu'un produit de fonctions paires soit pair, mais c'est en fait assez évident juste en considérant directement comment fonctionne la convolution - dans une convolution de deux fonctions symétriques (pmfs dans ce cas), pour chaque terme dans la somme de produits à une extrémité il y a un terme correspondant de la même taille à l'autre extrémité, placé symétriquement autour du centre.
Glen_b -Reinstate Monica
7

J'ai donc fait ce code:

d4 <- 1:4  #the faces on a d4
d6 <- 1:6  #the faces on a d6
d8 <- 1:8  #the faces on a d8
d10 <- 1:10 #the faces on a d10 (not used)
d12 <- 1:12 #the faces on a d12
d20 <- 1:20 #the faces on a d20

N <- 2000000  #run it 2 million times
mysum <- numeric(length = N)

for (i in 1:N){
     mysum[i] <- sample(d4,1)+
                 sample(d6,1)+
                 sample(d8,1)+
                 sample(d12,1)+
                 sample(d20,1)
}

#make the plot
hist(mysum,breaks = 1000,freq = FALSE,ylim=c(0,1))
grid()

Le résultat est ce complot. entrez la description de l'image ici

C'est assez gaussien. Je pense que nous avons (encore) démontré une variation sur le théorème de la limite centrale.

EngrStudent - Réintégrer Monica
la source
2
Hmm, le jet le plus bas de votre simulation est 6. La probabilité de le lancer (ou n'importe quel jet unique, en préservant l'identité du dé) est de 1: 4 * 1: 6 * 1: 8 * 1: 10 * 1: 12 * 1: 20 = 1: 460800. Mes procédures exigeraient un échantillon de taille N au moins deux fois (peut-être 4x) ce montant (comme une limite de Nyquist) pour révéler toute erreur dans ma modélisation.
Marcos
Mon expérience avec Nyquist indique également 4x le minimum. ... terminé. Si 2 millions ne suffisent pas, faites-moi savoir ce que cela devrait être.
EngrStudent
3
n
1
@EngrStudent: BTW, votre résultat ne confirme-t-il pas CLT?
Marcos
1
@theDoctor non, cela ne confirme pas le CLT pour une multitude de raisons
Glen_b -Reinstate Monica
7

Un peu d'aide à votre intuition:

Tout d'abord, considérez ce qui se passe si vous en ajoutez un à toutes les faces d'un dé, par exemple le d4. Ainsi, au lieu de 1,2,3,4, les visages affichent désormais 2,3,4,5.

En comparant cette situation à l'original, il est facile de voir que la somme totale est désormais supérieure de un à ce qu'elle était. Cela signifie que la forme de la distribution est inchangée, elle est simplement déplacée d'un pas sur le côté.

Maintenant, soustrayez la valeur moyenne de chaque dé de chaque côté de ce dé.

Cela donne des dés marqués

  • 32121232
  • 523212123252
  • 7252321212325272

etc.

Maintenant, la somme de ces dés devrait toujours avoir la même forme que l'original, mais seulement décalée vers le bas. Il doit être clair que cette somme est symétrique autour de zéro. Par conséquent, la distribution d'origine est également symétrique.

Stig Hemmer
la source
4

P(X=i)=p(i)
Xi0,1,,n(0,1/6,1/6,1/6,1/6,1/6,1/6)p(t)=06p(i)tiq(j)j0,1,,mp(t)q(t)
> p  <-  q  <-  c(0, rep(1/6,6))
> pq  <-  convolve(p,rev(q),type="open")
> zapsmall(pq)
 [1] 0.00000000 0.00000000 0.02777778 0.05555556 0.08333333 0.11111111
 [7] 0.13888889 0.16666667 0.13888889 0.11111111 0.08333333 0.05555556
[13] 0.02777778

et vous pouvez vérifier que c'est correct (calcul manuel). Maintenant pour la vraie question, cinq dés avec 4,6,8,12,20 faces. Je ferai le calcul en supposant des sondes uniformes pour chaque dé. Alors:

> p1  <-  c(0,rep(1/4,4))
> p2 <-  c(0,rep(1/6,6))
> p3 <-  c(0,rep(1/8,8))
> p4  <-  c(0, rep(1/12,12))
> p5  <-  c(0, rep(1/20,20))
> s2  <-  convolve(p1,rev(p2),type="open")
> s3 <-  convolve(s2,rev(p3),type="open")
> s4 <-  convolve(s3,rev(p4),type="open")
> s5 <- convolve(s4, rev(p5), type="open")
> sum(s5)
[1] 1
> zapsmall(s5)
 [1] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00002170
 [7] 0.00010851 0.00032552 0.00075955 0.00149740 0.00262587 0.00421007
[13] 0.00629340 0.00887587 0.01191406 0.01534288 0.01907552 0.02300347
[19] 0.02699653 0.03092448 0.03465712 0.03808594 0.04112413 0.04370660
[25] 0.04578993 0.04735243 0.04839410 0.04891493 0.04891493 0.04839410
[31] 0.04735243 0.04578993 0.04370660 0.04112413 0.03808594 0.03465712
[37] 0.03092448 0.02699653 0.02300347 0.01907552 0.01534288 0.01191406
[43] 0.00887587 0.00629340 0.00421007 0.00262587 0.00149740 0.00075955
[49] 0.00032552 0.00010851 0.00002170
> plot(0:50,zapsmall(s5))

L'intrigue est présentée ci-dessous:

entrez la description de l'image ici

Vous pouvez maintenant comparer cette solution exacte avec des simulations.

kjetil b halvorsen
la source
1

Le théorème de la limite centrale répond à votre question. Bien que ses détails et sa preuve (et cet article de Wikipédia) soient quelque peu effrayants, l'essentiel est simple. Par Wikipedia, il déclare que

la somme d'un certain nombre de variables aléatoires indépendantes et identiquement distribuées avec des variances finies tendra vers une distribution normale à mesure que le nombre de variables augmente.

Croquis d'une preuve pour votre cas:

Lorsque vous dites «lancez tous les dés à la fois», chaque lancer de tous les dés est une variable aléatoire.

Vos dés ont des nombres finis imprimés dessus. La somme de leurs valeurs a donc une variance finie.

Chaque fois que vous lancez tous les dés, la distribution de probabilité du résultat est la même. (Les dés ne changent pas entre les jets.)

Si vous lancez les dés équitablement, chaque fois que vous les lancez, le résultat est indépendant. (Les rouleaux précédents n'affectent pas les rouleaux futurs.)

Indépendant? Vérifier. Identiquement distribué? Vérifier. Variance finie? Vérifier. Par conséquent, la somme tend vers une distribution normale.

Cela n'aurait même pas d'importance si la distribution pour un lancer de tous les dés était déséquilibrée vers le bas de gamme. Je n'aurais pas d'importance s'il y avait des pointes dans cette distribution. Toute la sommation le lisse et en fait un gaussien symétrique. Vous n'avez même pas besoin de faire d'algèbre ou de simulation pour le montrer! C'est la vision surprenante du CLT.

Paul Cantrell
la source
3
Bien que le CLT soit pertinent, et comme les autres articles le montrent, les distributions sont à peu près gaussiennes, nous n'avons affaire qu'à la somme de 5 distributions indépendantes non identiques . Donc le point 1) 5 n'est pas vraiment assez grand pour invoquer un théorème qui s'applique "à l'infini". Point 2) vous ne pouvez pas utiliser le vanilla CLt, car les choses que vous additionnez ne sont pas iid. Vous avez besoin du Lyapunov CLT, je pense.
Peter
2
Vous n'avez pas besoin du théorème de la limite centrale pour dire que la somme de certaines variables aléatoires indépendantes avec des distributions symétriques par rapport à leurs centres respectifs a une distribution symétrique par rapport à la somme des centres.
Henry
@Peter: Vous manquez la structure de ma preuve. L'OP dit «lancez-les tous en même temps». Je prends chaque lancer de tous les dés comme une variable aléatoire. Ces variables aléatoires ont une distribution identique. Pas besoin de Lyapunov. De plus, le PO dit «faites-le plusieurs fois», ce que je veux dire «dans la limite», donc votre point # 1 n'est pas valide. Nous ne sommons pas seulement un jet de 5 dés ici.
Paul Cantrell
2
@PaulCantrell Chaque lancer de tous les dés est la somme de cinq variables indépendantes non identiquement distribuées. Le PO s'interroge sur la répartition de cette somme. Vous pouvez faire plusieurs lancers des 5 dés, mais ce n'est qu'un échantillonnage de la distribution en question, personne ne résume ces échantillons.
Peter
1
@PaulCantrell Je suppose que cela dépend de la façon dont vous interprétez "Faites-le plusieurs fois". Faites-le plusieurs fois et additionnez-les à nouveau (obtenir une seule valeur), ou faites-le plusieurs fois et regardez l'histogramme de ces échantillons (obtenir plusieurs valeurs). J'ai pris cette dernière interprétation.
Peter