Casse-tête: Quelle est la longueur attendue d'une séquence iid qui augmente de façon monotone lorsqu'elle est tirée d'une distribution uniforme [0,1]?

28

Il s'agit d'une question d'entrevue pour un poste d'analyste quantitatif, rapportée ici . Supposons que nous dessinons à partir d'une distribution uniforme et que les tirages soient iid, quelle est la longueur attendue d'une distribution augmentant de façon monotone? C'est-à-dire que nous arrêtons de dessiner si le tirage actuel est inférieur ou égal au tirage précédent.[0,1]

J'ai obtenu les premiers: \ Pr (\ text {length} = 2) = \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_0 ^ {x_2} \ mathrm {d} x_3 \, \ mathrm {d} x_2 \, \ mathrm {d} x_1 = 1/3 \ Pr (\ text {length} = 3) = \ int_0 ^ 1 \ int_ {x_1} ^ 1 \ int_ {x_2} ^ 1 \ int_0 ^ {x_3} \ mathrm {d} x_4 \, \ mathrm { d} x_3 \, \ mathrm {d} x_2 \, \ mathrm {d} x_1 = 1/8

Pr(length=1)=010x1dx2dx1=1/2
Pr(length=2)=01x110x2dx3dx2dx1=1/3
Pr(length=3)=01x11x210x3dx4dx3dx2dx1=1/8

mais je trouve le calcul de ces intégrales imbriquées de plus en plus difficile et je n'ai pas le "truc" pour généraliser à Pr(length=n) . Je sais que la réponse finale est structurée

E(length)=n=1nPr(length=n)

Des idées sur la façon de répondre à cette question?

Amazonien
la source

Réponses:

37

Voici quelques conseils généraux pour résoudre cette question:

Vous disposez d'une séquence de variables aléatoires IID continues, ce qui signifie qu'elles sont échangeables . Qu'est-ce que cela implique sur la probabilité d'obtenir un ordre particulier pour les n premières nvaleurs? Sur cette base, quelle est la probabilité d'obtenir un ordre croissant pour les n premières nvaleurs? Il est possible de comprendre cela sans intégrer la distribution des variables aléatoires sous-jacentes. Si vous le faites bien, vous pourrez dériver une réponse sans aucune hypothèse d'une distribution uniforme - c'est-à-dire que vous obtenez une réponse qui s'applique à toutes les séquences échangeables de variables aléatoires continues.


Voici la solution complète ( ne regardez pas si vous êtes censé le découvrir vous-même ):

Soit votre séquence de variables aléatoires continues indépendantes, et soit soit le nombre d'éléments croissants au début de la séquence. Comme ce sont des variables aléatoires interchangeables continues, elles sont presque sûrement inégales les unes aux autres, et tout ordre est également probable, nous avons donc: (Notez que ce résultat est valable pour toute séquence IID de variables aléatoires continues; elles n'ont pas besoin d'avoir une distribution uniforme.) Ainsi, la variable aléatoire a une fonction de masse de probabilitéU1,U2,U3,IID Continuous DistNmax{nN|U1<U2<<Un}

P(Nn)=P(U1<U2<<Un)=1n!.
N
pN(n)=P(N=n)=1n!1(n+1)!=n(n+1)!.
Vous remarquerez que ce résultat correspond aux valeurs que vous avez calculées en utilisant l'intégration sur les valeurs sous-jacentes. (Cette partie n'est pas nécessaire pour la solution; elle est incluse pour être complète.) En utilisant une règle bien connue pour la valeur attendue d'une variable aléatoire non négative , nous avons: Notez encore qu'il n'y a rien dans notre travail qui utilise la distribution uniforme sous-jacente. Il s'agit donc d'un résultat général qui s'applique à toute séquence échangeable de variables aléatoires continues.
E(N)=n=1P(Nn)=n=11n!=e1=1.718282.

Quelques informations supplémentaires:

D'après les travaux ci-dessus, nous voyons que ce résultat de distribution et la valeur attendue qui en résulte ne dépendent pas de la distribution sous-jacente, tant qu'il s'agit d'une distribution continue. Ce n'est vraiment pas surprenant une fois que nous considérons le fait que chaque variable scalaire aléatoire continue peut être obtenue via une transformation monotone d'une variable aléatoire uniforme (la transformation étant sa fonction quantile). Étant donné que les transformations monotones préservent l'ordre de classement, l'examen des probabilités d'ordonnances de variables aléatoires continues IID arbitraires revient à examiner les probabilités d'ordonnances de variables aléatoires uniformes IID .

Réintégrer Monica
la source
6
Bien fait! (+1)
jbowman
1
@Ben je vous suis jusqu'à la dernière équation ... Je pensais que la valeur attendue devrait être, plutôt que ... pouvez-vous expliquer davantage cette partie?
E(N)=n=1P(N=n)n=n=1n2/(n+1)!
E(N)=n=1P(Nn)
Amazonian
5
Il s'agit d'une règle bien connue pour la valeur attendue d'une variable aléatoire non négative . En utilisant une technique impliquant l'échange de l'ordre des sommations, vous avez: Vous devriez donc trouver que .
E(N)=n=1nP(N=n)=n=1k=1nP(N=n)=n=1k=nP(N=k)=n=1P(Nn).
n1n!=nn2(n+1)!
Rétablir Monica le
Pouvez-vous expliquer pourquoi ? P(Nn)=P(U1<U2<<Un)
badmax
1
@badmax: La variable aléatoire est le nombre d'éléments croissants de au début de la séquence (voir sa définition). Ainsi, si cela signifie qu'il y a au moins éléments croissants au début de la séquence. Cela signifie que les premiers éléments doivent être dans l'ordre croissant, qui est . NUNnnnU1<U2<<Un
Rétablir Monica le
8

Une autre méthode de résolution qui vous apporte la solution pour un cas plus général.

Supposons que soit la longueur attendue d'une séquence monotone , telle que . La valeur que nous voulons calculer est . Et nous savons que . Conditionner sur la valeur suivante,F(x){x1,x2,...}xx1x2F(0)F(1)=0

F(x)=0xπ(y)0dy+x1π(y)(1+F(y))dy=x11+F(y)dy

où est la densité U [0,1]. Alorsπ(y)=1

F(x)=(1+F(x))

En résolvant avec la condition aux limites , on obtient . D'où .F(1)=0F(x)=e(1x)1F(0)=e1

jf328
la source
2
C'est très intelligent. Juste pour l'exprimer un peu: vos observations sont que 1) si est la longueur de la plus longue séquence croissante initiale moins un, alors il suffit de déterminer et de définir et 2) est nul si et sinon. Puisque nous obtenons , qui dans le cas uniforme peut être résolu directement. LE(L|X0=x)=:F(x)x=0E(L|X0=x,X1=y)y<x1+E(L|X0=y)E(L|X0=x)=E(E(L|X0=x,X1))=RfX(y)E(L|X0=x,X1=y)dy=x1fX(y)(1+E(L|X0=y))dy=x1fX(y)(1+F(y))dyF(x)=fX(x)(1+F(x))
Matthew Towers
2
+1 Très intelligent en effet. Mais comme la réponse finale ne dépend pas de la distribution (comme le dit l'autre réponse), ce calcul ne devrait pas non plus dépendre de . Y a-t-il un moyen de le voir? CC à @m_t_. π(y)
amibe dit Réintégrer Monica
3
@amoeba Je suis d'accord que ne devrait pas dépendre de la distribution des s, mais d'autres valeurs de devraient: la solution générale de ce DE estF(0)XFF=Ceπ1
Matthew Towers
1
@MartijnWeterings Je pense que , pas 1, par exemple dans le cas uniforme, nous obtenonsC=eeex1
Matthew Towers
1
Oui, tu as raison. J'ai utilisé le cas uniforme pour déduire ma déclaration, mais j'ai utilisé à tort au lieu dece1x1cex1
Sextus Empiricus
0

Une autre méthode de résolution consiste à calculer directement l'intégrale.

La probabilité de générer une séquence dont la partie croissante a une longueur de est , où .nfn(0)fn(x)=x1x11x21...xn21xn11dxndxn1...dx2dx1

Ce que nous devons faire est de calculer .fn(0)

Si vous essayez de calculer les premiers , vous constaterez peut-être quefn(x)fn(x)=t=0n(x)tt!(nt)!

Cas de base: lorsque ,n=1f1(x)=t=01(x)tt!(nt)!=1x=x1dx1

Hypothèse inductive: lorsque ,n=kfn(x)=t=0k(x)tt!(kt)! , for k1

Étape inductive: lorsque ,n=k+1

     fn(x)=fk+1(x)=x1fk(x)dx

=x1t=0k(x)tt!(kt)!dx

=t=0k(x)t+1t!(kt)!×(t+1)|x1=t=0k(x)t+1(t+1)!(kt)!|x1

=t=1k+1(x)tt!(kt+1)!|x1

=t=1k+1(1)t+1t!(kt+1)!+t=1k+1(x)tt!(kt+1)!

=t=1k+1(1)t+1Ctk+1(k+1)!+t=1k+1(x)tt!(kt+1)!

=1(k+1)!+t=0k+1(1)t+1Ctk+1(k+1)!+t=1k+1(x)tt!(kt+1)!

=1(k+1)!(11)k+1(k+1)!+t=1k+1(x)tt!(kt+1)!

=t=0k+1(x)tt!(kt+1)!

Par induction mathématique, l'hypothèse est vraie.

Ainsi, nous obtenons quefn(0)=1n!

Donc,E(length)=n=1Pr(lengthn)=n=11n!=e1

劉家維
la source