Les différences entre des nombres uniformément distribués sont-elles uniformément distribuées?

22

Nous lançons un dé à 6 faces un grand nombre de fois.

En calculant la différence (valeur absolue) entre un rouleau et son rouleau précédent, les différences devraient-elles être uniformément réparties?

Pour illustrer avec 10 rouleaux:

roll num  result diff
1           1     0
2           2     1
3           1     1
4           3     2
5           3     0
6           5     2
7           1     4
8           6     5
9           4     2
10          4     0

Les diffvaleurs seraient-elles réparties uniformément?

Hé Jude
la source
13
Tracer un histogramme pour au moins avoir une idée
gunes
2
Découvrez la distribution de Poisson .
leftaroundabout
Cela ressemble à des devoirs ....
Manu H
@Manu H, je vous assure que les journées de devoirs sont loin derrière moi
HeyJude

Réponses:

37

Non ce n'est pas uniforme

Vous pouvez compter les possibilités également probables pour les différences absolues36

     second 1   2   3   4   5   6
first                           
1           0   1   2   3   4   5
2           1   0   1   2   3   4
3           2   1   0   1   2   3
4           3   2   1   0   1   2
5           4   3   2   1   0   1
6           5   4   3   2   1   0

qui donne une distribution de probabilité pour les différences absolues de

0    6/36  1/6
1   10/36  5/18
2    8/36  2/9
3    6/36  1/6
4    4/36  1/9
5    2/36  1/18
Henri
la source
27
@onurcanbektas Le tableau de cette réponse contredit clairement votre affirmation: par exemple, il montre qu'une seule des différences possibles est 5 alors que 6 d'entre elles sont 0. Puisque les 36 possibilités sont également probables, c'est non uniforme.
whuber
13
@onurcanbektas Je vous invite à nouveau à contempler la table. Puisqu'il n'a que deux différences absolues de 5, n'est-il pas évident que pas plus de deux différences peuvent égaler 5?
whuber
14
@onurcanbektas Pour les différences simples (c'est-à-dire avec des signes, donc des entiers de -5 à +5), la distribution est une distribution triangulaire discrète symétrique avec le mode (valeur la plus probable) à 0. Pour les différences absolues comme indiqué dans ma réponse, le le mode est 1.
Henry
2
Il convient toutefois de noter que la différence signée modulo 6 est uniformément répartie.
Federico Poloni
2
@FedericoPoloni N'est-ce pas trivialement évident? Je veux dire que je n'y ai jamais vraiment pensé avant de lire le commentaire, mais il est assez évident que cela doit être vrai
Cruncher
21

En utilisant uniquement les axiomes les plus élémentaires sur les probabilités et les nombres réels, on peut prouver une affirmation beaucoup plus forte:

La différence de deux valeurs aléatoires non constantes indépendantes réparties de façon identique XY n'a jamais une distribution uniforme discrète.

(Une déclaration analogue pour les variables continues est prouvée au format PDF uniforme de la différence de deux RV .)

L'idée est que la chance que XY soit une valeur extrême doit être inférieure à la chance que XY soit zéro, car il n'y a qu'une seule façon de (par exemple) maximiser XY alors qu'il existe de nombreuses façons de faire la différence zéro , car et ont la même distribution et peuvent donc être égaux. Voici les détails.XY

Observons d' abord que les deux variables hypothétiques et en question ne peuvent chacune atteindre qu'un nombre fini de valeurs avec une probabilité positive, car il y aura au moins différences distinctes et une distribution uniforme leur attribue toutes une probabilité égale. Si est infini, il en sera de même du nombre de différences possibles ayant une probabilité positive et égale, d'où la somme de leurs chances serait infinie, ce qui est impossible.XYnnn

Ensuite , comme le nombre de différences est fini, il y en aura une plus grande. La plus grande différence ne peut être obtenue qu'en soustrayant la plus petite valeur de - l'appel delet it et en supposant qu'il a une probabilité --de la plus grande valeur de --l'appel delet que celui-là avec Parce que et sont indépendants, la chance de cette différence est le produit de ces chances,Ymq=Pr(Y=m)XMp=Pr(X=M).XY

(*)Pr(XY=Mm)=Pr(X=M)Pr(Y=m)=pq>0.

Enfin , parce que et ont la même distribution, il existe de nombreuses façons dont leurs différences peuvent produire la valeur Parmi ces façons, il y a les cas où et Parce que cette distribution n'est pas constante, diffère de Cela montre que ces deux cas sont des événements disjoints et qu'ils doivent donc contribuer au moins un montant à la chance que est zéro; C'est,XY0.X=Y=mX=Y=M.mM.p 2 + q 2 X - Yp2+q2XY

Pr(XY=0)Pr(X=Y=m)+Pr(X=Y=M)=p2+q2.

Puisque les carrés des nombres ne sont pas négatifs, où nous déduisons de que0(pq)2,()

Pr(XY=Mm)=pqpq+(pq)2=p2+q2pq<p2+q2Pr(XY=0),

montrant la distribution de n'est pas uniforme, QED.XY

Modifier en réponse à un commentaire

Une analyse similaire des différences absoluesobserve que parce que et ont la même distribution,Cela nous oblige à étudierLa même technique algébrique donne presque le même résultat, mais il est possible que etCe système d'équations a la solution unique|XY|XYm=M.Pr(XY=|Mm|)=2pq.2pq=2pq+(pq)22pq+p2+q2=1.p=q=1/2correspondant à une pièce de monnaie équitable (un "dé à deux faces"). Hormis cette exception, le résultat des différences absolues est le même que celui des différences, et pour les mêmes raisons sous-jacentes déjà données: à savoir, les différences absolues de deux variables aléatoires iid ne peuvent pas être uniformément réparties lorsqu'il y a plus de deux différences distinctes avec une probabilité positive.

(fin du montage)


Appliquons ce résultat à la question, qui pose une question un peu plus complexe.

Modélisez chaque lancer indépendant du dé (qui pourrait être un dé injuste ) avec une variable aléatoire Les différences observées dans ces rouleaux sont les nombres On peut se demander à quel point ces nombres sont uniformément répartis . C'est vraiment une question sur les attentes statistiques: quel est le nombre attendu de égal à zéro, par exemple? Quel est le nombre attendu de égal à ? Etc.Xi, i=1,2,,n.nΔXi=Xi+1Xi.n1ΔXiΔXi1

L'aspect problématique de cette question est que les ne sont pas indépendants: par exemple, et impliquent le même roulementΔXi Δ X 1 = X 2 - X 1 Δ X 2 = X 3 - X 2 X 2 .ΔX1=X2X1ΔX2=X3X2X2.

Cependant, ce n'est pas vraiment une difficulté. Étant donné que l'attente statistique est additive et que toutes les différences ont la même distribution, si nous choisissons une valeur possible des différences, le nombre attendu de fois que la différence est égale à dans toute la séquence de rouleaux est juste fois le nombre attendu de fois la différence est égale à en une seule étape du processus. Cette attente en une seule étape est (pour tout ). Ces attentes seront les mêmes pour tous les (c'est-à-dire uniformes ) si et seulement si elles sont les mêmes pour un seulkknn1kPr(ΔXi=k)ikΔXi. Mais nous avons vu qu'aucun n'a une distribution uniforme, même lorsque le dé peut être biaisé. Ainsi, même dans ce sens plus faible des fréquences attendues, les différences des rouleaux ne sont pas uniformes.ΔXi

whuber
la source
@Michael Bon point: j'ai répondu à la question comme posée (qui concerne les "différences"), plutôt que comme illustré (qui fait clairement référence aux différences absolues). La même technique s'applique - il suffit de considérer les différences max et min. Dans le cas où ce sont les deux seules possibilités (avec zéro), nous pouvons obtenir l'égalité, d'où le résultat Bernoulli vient (montrant que c'est l'unique exemple). (1/2)
whuber
Une autre réponse prouvant une version particulière de ceci est ici .
Rétablissez Monica
Merci, @Ben: j'avais oublié ce fil. Parce que c'est une meilleure référence, je fais maintenant un lien direct avec elle dans cette réponse.
whuber
12

À un niveau intuitif, un événement aléatoire ne peut être uniformément distribué que si tous ses résultats sont également probables.

En est-il de même pour l'événement aléatoire en question - différence absolue entre deux lancers de dés?

Il suffit dans ce cas de regarder les extrêmes - quelles sont les valeurs les plus grandes et les plus petites que cette différence pourrait prendre?

Évidemment, 0 est le plus petit (nous examinons les différences absolues et les rouleaux peuvent être les mêmes), et 5 est le plus grand ( 6vs 1).

Nous pouvons montrer que l'événement n'est pas uniforme en montrant qu'il 0est plus (ou moins) susceptible de se produire que 5.

En un coup d'œil, il n'y a que deux façons pour que 5 se produise - si le premier dé est 6 et le second 1, ou vice versa . De combien de façons 0 peut-il se produire?

MichaelChirico
la source
1
+1 Je pense que cela va au cœur du problème. J'ai posté une généralisation de la question qui repose finalement sur la même constatation.
whuber
5

Comme l'a présenté Henry, les différences de distributions uniformément distribuées ne sont pas uniformément distribuées.

Pour illustrer cela avec des données simulées, nous pouvons utiliser un script R très simple:

barplot(table(sample(x=1:6, size=10000, replace=T)))

entrez la description de l'image ici

On voit que cela produit en effet une distribution uniforme. Voyons maintenant la distribution des différences absolues de deux échantillons aléatoires de cette distribution.

barplot(table(abs(sample(x=1:6, size=10000, replace=T) - sample(x=1:6, size=10000, replace=T))))

entrez la description de l'image ici

LuckyPal
la source
6
Pourquoi cela a-t-il quelque chose à voir avec le CLT, qui concerne la distribution asymptotique des moyennes d'un grand nombre de valeurs iid?
whuber
2
J'aime la connexion que vous avez initialement établie avec CLT . Soit le nombre d'échantillons à ajouter (ou soustraire) à la distribution uniforme d'origine. CLT implique que pour un grand la distribution tendra vers la normale. Cela implique à son tour que la distribution ne peut pas rester uniforme pour tout , tel que ce que demande OP. (Si cela ne va pas de soi, considérez que si la somme était uniformément distribuée lorsque , la réindexation impliquerait qu'elle est également uniforme lorsque , etc., y compris pour les grands .)n n > 1 n = 2 n = 2 n = 4 nnnn>1n=2n=2n=4n
krubo
3
@Krubo La question d'origine pose la question de la répartition des différences entre les lancers successifs d'un dé. Le CLT n'a rien à dire à ce sujet. En effet, quel que soit le nombre de fois que le dé est lancé, la distribution de ces différences n'approche pas de la normalité.
whuber
Cette distribution a-t-elle tendance à être uniforme alors que le nombre de faces de filières tend vers l'infini? Je ne sais pas trop comment montrer cela, mais intuitivement, on dirait que ça va dans cette direction, mais je ne sais pas si ça se bloque asymptotiquement quelque part avant de l'aplatir suffisamment
Cruncher
@Cruncher, vous pouvez facilement changer le nombre de faces de matrice dans le R-Code. Plus il y a de visages, plus la nature des escaliers de la distribution devient évidente. «1» est toujours le pic de cet escalier et avec des différences plus importantes, les probabilités se rapprochent de zéro. De plus, la différence de «0» est nettement plus rare que «1». (au moins si la plus petite valeur du dé est '1')
LuckyPal
2

D'autres ont travaillé les calculs, je vais vous donner une réponse qui me semble plus intuitive. Vous voulez étudier la somme de deux unifrom rv (Z = X + (-Y)), la distribution globale est le produit de convolution (discret):

P(Z=z)=k=P(X=k)P(Y=zk)

Cette somme est plutôt intuitive: la probabilité d'obtenir , est la somme des probabilités d'obtenir quelque chose avec X (noté ici) et le complément de avec -Y.zkz

Du traitement du signal, nous savons comment se comportent les produits de convolution:

  • Le produit de convolution de deux fonctions uniformes (deux rectangles) donnera un triangle. Ceci est illustré par wikipedia pour les fonctions continues:

entrez la description de l'image ici

  • Vous pouvez comprendre ce qui se passe ici: lorsque monte (la ligne pointillée verticale), le domaine commun des deux rectangles monte et descend, ce qui correspond à la probabilité d'obtenir .zz

  • Plus généralement, nous savons que les seules fonctions stables par convolution sont celles de la famille gaussienne. c'est-à-dire que seule la distribution gaussienne est stable par addition (ou plus généralement, combinaison linéaire). Cela signifie également que vous n'obtenez pas de distribution uniforme lorsque vous combinez des distributions uniformes.

Quant à savoir pourquoi nous obtenons ces résultats, la réponse réside dans la décomposition de Fourrier de ces fonctions. La transformation de Fourrier d'un produit de convolution étant le simple produit des transformations de Fourrier de chaque fonction. Cela donne des liens directs entre les coefficients de Fourrier des fonctions rectangle et triangle.

lcrmorin
la source
Veuillez vérifier la validité de vos réclamations et la logique de votre réponse. La question n'est pas de savoir si la convolution de deux distributions uniformes est uniforme: c'est de savoir si la convolution d' une distribution et son inversion peuvent être uniformes. Et il y a beaucoup plus de familles distributionnelles que les gaussiennes stables en convolution (standardisation modulo, bien sûr): voir en.wikipedia.org/wiki/Stable_distribution
whuber
Vous avez raison sur les distributions stables. Pour la question, je suis presque sûr qu'il s'agit de la différence de deux valeurs aléatoires avec une distribution uniforme (comme indiqué par le titre). La question de savoir si la convolution d'une distribution et son inversion peuvent être uniformes est plus grande que ce qui est demandé ici.
lcrmorin
1

Si et sont deux lancers de dés consécutifs, vous pouvez visualiser (pour ) comme suit où chaque couleur correspond à une valeur différente de :xy|xy|=kk=0,1,2,3,4,5k

visualisation de la différence des jets de dés consécutifs

Comme vous pouvez facilement le voir, le nombre de points pour chaque couleur n'est pas le même; par conséquent, les différences ne sont pas uniformément réparties.

aujourd'hui
la source
0

Soit la différence et la valeur du rouleau, alors DtXP(Dt=5)=P(Xt=6,Xt1=1)<P((Xt,Xt1){(6,3),(5,2)})<P(Dt=3)

La fonction n'est donc pas constante en . Cela signifie que la distribution n'est pas uniforme.P(Dt=d)d

Hunaphu
la source