Si

9

Supposons la configuration suivante:
Soit Zi=min{ki,Xi},i=1,...,n . Aussi XiU[ai,bi],ai,bi>0 . De plus ki=cai+(1c)bi,0<c<1 ie ki est une combinaison convexe des limites des supports respectifs. c est commun à tout i .

Je pense avoir la bonne distribution de Zi : c'est une distribution mixte .
Il a une partie continue,

Xi[ai,ki),Zi=XiPr(Zizi)=ziaibiai
puis une discontinuité et une partie discrète où concentrés de masse de probabilité:
Pr(Zi=ki)=Pr(Xi>ki)=1Pr(Xiki)
=1kiaibiai=1(1c)(biai)biai=c

Donc, dans tous les

FZi(zi)={0zi<aiziaibiaiaizi<ki1kizi

alors que pour la fonction mixte masse / densité "discrète / continue", elle est 0 dehors de l'intervalle [ai,ki] , elle a une partie continue qui est la densité d'un U uniforme (a_i, b_i)U(ai,bi) , 1biai mais pour aizi<ki , et il concentre la masse de probabilité positive c>0 à zi=ki .

En somme, cela se résume à l'unité sur les réels.

Je voudrais pouvoir dériver ou dire quelque chose sur la distribution et / ou les moments de la variable aléatoire Sni=1nZi , comme n .

Disons que si les sont indépendants, cela ressemble à comme . Puis-je "ignorer" cette partie, même en tant qu'approximation? Il me resterait alors une variable aléatoire qui se situe dans l'intervalle , ressemblant à la somme d'uniformes censurés, en passe de devenir "non censurés", et donc peut-être un théorème central limite ... mais je suis probablement en train de diverger plutôt que de converger ici, alors, des suggestions?XiPr(Sn=inki)=cn0n[i=1nai,i=1nki)

PS: Cette question est pertinente, dérivant la distribution de la somme des variables censurées , mais la réponse de @Glen_b n'est pas ce dont j'ai besoin - je dois travailler cette chose analytiquement, même en utilisant des approximations. Il s'agit de recherche, alors veuillez le traiter comme des devoirs - les suggestions générales ou les références à la littérature sont assez bonnes.

Alecos Papadopoulos
la source
Si vous en avez besoin, écrivez la distribution de comme , avec un approprié , dans lequel est un ensemble Borel. ZiμZi(B)=P(ZiB)=Bg(t)dt+cIB(ki)gB
Zen
@Zen J'ai déjà écrit dans la question que la distribution est discontinue. De plus, le RHS de rend évident que ce représente une densité dans , mais pour une probabilité pour - et je préfère la notation compacte. ff[ai,ki)ki
Alecos Papadopoulos
Pour autant que je sache, cette notation avec était un pdf et un pmf n'existe pas; et nous avons le langage mathématique approprié pour décrire précisément les distributions mixtes. Je doute que cette notation soit acceptée lorsque vous publierez votre recherche. Juste mon avis bien sûr. Vous devez toujours le faire comme vous l'aimez. f
Zen
@Zen Publishing a un long chemin à parcourir - et en effet, les critiques froncent les sourcils lorsqu'ils voient une notation non établie. Celui-ci n'est qu'un raccourci quand on veut décrire une distribution pas à pas sur plusieurs lignes. Il n'y a aucun "argument en faveur" et contre la notation établie, comme par exemple celui que vous avez utilisé dans un commentaire précédent.
Alecos Papadopoulos

Réponses:

5

Je suivrais le conseil d'Henry et vérifierais Lyapunov avec . Le fait que les distributions soient mixtes ne devrait pas être un problème, tant que les et se comportent correctement. La simulation du cas particulier dans lequel , , pour chaque montre que la normalité est correcte.δ=1aibiai=0bi=1ki=2/3i1

xbar <- replicate(10^4, mean(pmin(runif(10^4), 2/3)))
hist((xbar - mean(xbar)) / sd(xbar), breaks = "FD", freq = FALSE)
curve(dnorm, col = "blue", lwd = 2, add = TRUE)

CLT

Zen
la source
En effet assez normal. Bon à savoir. Les conditions habituelles pour le CLT n'ont jamais été un problème ici, ma question était de savoir s'il y avait d'autres problèmes, peut-être subtils, qui tordaient le résultat asymptotique et nécessitaient un CLT modifié. Votre simulation montre qu'en effet la discontinuité discrète devient négligeable en probabilité à mesure que davantage de variables entrent dans la somme.
Alecos Papadopoulos
Rien de précis, mais ils ne posent aucun problème. Considérez-les comme des nombres finis bien comportés, indépendamment de l'indice . Ils peuvent augmenter ou diminuer à mesure que grandis (pas de règle spécifique), et aucun d'eux n'est disproportionnellement plus grand que les autres ... ils représentent des différences de taille d'entités néanmoins "comparables". La condition de Lindeberg tient donc très certainementii
Alecos Papadopoulos
Agréable. Bonne chance pour les prochaines étapes. On dirait un problème intéressant.
Zen
3

Conseils:

En supposant que est fixe et que les sont indépendants, vous pouvez calculer la moyenne et la variance de chaque : par exemple et vous connaissez . cXiμiσi2Ziμi=E[Zi]=cai+ki2+(1c)kiki=cai+(1c)bi

Ensuite, à condition que et n'augmentent pas trop rapidement, vous pouvez utiliser les conditions de Lyapunov ou Lindeberg pour appliquer le théorème de la limite centrale en concluant que converge en distribution vers une normale standard, ou dans un sens de la main est approximativement normalement distribué avec la moyenne et variance .aibi11nσi2(1nZi1nμi)1nZi1nμi1nσi2

Henri
la source
Merci. Il n'y a pas de problème avec les et , ils ne croissent pas avec l'indice, ils fluctuent juste autour. Donc, vous dites essentiellement que le CLT peut également couvrir des variables aléatoires avec des distributions mixtes? aibi
Alecos Papadopoulos
Si par exemple et étaient fixes, alors vous auriez des variables aléatoires indépendantes distribuées de façon identique avec une variance finie, donc le théorème de la limite centrale s'appliquerait. Que ce soit une distribution de mélange ou non n'affecte pas ce résultat. Ce que je dis, c'est que vous pouvez étendre cela aux cas où les variables aléatoires sont indépendantes mais ne sont pas distribuées de manière identique, à condition que les moyennes et les variances restent raisonnables. aibi
Henry
2

Ma principale préoccupation dans cette question était de savoir si l'on pouvait appliquer le CLT "comme d'habitude" dans le cas que j'examine. L'utilisateur @Henry a affirmé que c'était possible, l'utilisateur @Zen l'a montré à travers une simulation. Ainsi encouragé, je vais maintenant le prouver analytiquement.

Ce que je vais faire en premier est de vérifier que cette variable avec la distribution mixte a une fonction de génération de moment "habituelle". On note la valeur attendue de , son écart - type et la version centrée et mise à l' échelle de par . En appliquant la formule de changement de variable, nous constatons que la partie continue est La fonction de génération de moment de devrait être μiZiσiZiZ~i=Ziμiσi

fZ~(z~i)=σifZ(zi)=σibiai
Z~i
M~i(t)=E(ez~it)=ez~itdFZ~(z~i)=a~ik~iσiez~itbiaidzi+cek~it

M~i(t)=σibiaiek~itea~itt+cek~it
avec
k~i=kiμiσi,a~i=aiμiσi

En utilisant des nombres premiers pour désigner les dérivées, si nous avons correctement spécifié la fonction de génération de moment, nous devrions obtenir puisque cela est une variable aléatoire centrée et mise à l'échelle. Et en effet, en calculant des dérivées, en appliquant plusieurs fois la règle de L'Hopital (puisque la valeur du MGF à zéro doit être calculée par des limites), et en faisant des manipulations algébriques, j'ai vérifié les deux premières égalités. La troisième égalité s'est avérée trop fatigante, mais j'espère qu'elle tient.

M~i(0)=1,M~i(0)=E(Z~)=0M~i(0)=E(Z~i2)=Var(Z~i)=1

Nous avons donc un MGF approprié. Si nous prenons son expansion de Taylor de second ordre autour de zéro, nous avons

M~(t)=M~(0)+M~(0)t+12M~(0)t2+o(t2)

M~(t)=1+12t2+o(t2)

Cela implique que la fonction caractéristique est (ici désigne l'unité imaginaire) .i

ϕ~(t)=1+12(it)2+o(t2)=112t2+o(t2)

Par les propriétés de la fonction caractéristique , nous avons que la fonction caractéristique de est égale àZ~/n

ϕ~Z~/n(t)=ϕ~Z~(t/n)=1t22n+o(t2/n)

et comme nous avons des variables aléatoires indépendantes, la fonction caractéristique de est1ninZ~i

ϕ~1ninZ~i(t)=i=1nϕ~Z~(t/n)=i=1n(1t22n+o(t2/n))

alors

limnϕ~1ninZ~i(t)=limn(1t22n)n=et2/2

par la façon dont le nombre est représentée . Il se trouve que le dernier terme est la fonction caractéristique de la distribution normale standard, et par le théorème de continuité de Levy , nous avons que

1ninZ~idN(0,1)

qui est le CLT. Notez que le fait que les variables ne soient pas distribuées de manière identique, a «disparu» de la vue une fois que nous avons considéré leurs versions centrées et mises à l'échelle et considéré l'expansion Taylor de second ordre de leur MGF / CHF: à ce niveau d'approximation, ces fonctions sont identiques et toutes les différences sont compactées dans les termes restants qui disparaissent asymptotiquement. Z

Le fait que le comportement idiosyncratique au niveau individuel, de tous les éléments individuels, disparaisse néanmoins lorsque nous considérons le comportement moyen, je pense qu'il est très bien présenté en utilisant une créature méchante comme une variable aléatoire ayant une distribution mixte.

Alecos Papadopoulos
la source
Vraiment cool, Alecos. Mon sentiment est que l'argument devrait dépendre de conditions plus spécifiques sur les et les . Par exemple: la preuve se si rapidement? (Je sais que dans votre candidature, cela ne se produit pas.) Que pensez-vous? aibi(biai)0
Zen
@Zen Le problème concernant les variances des VR indépendants mais non identiquement distribués est très subtil, je ne pense pas que je le comprends toujours clairement. Les conditions connues de Lyapunov ou Lindeberg ne sont suffisantes que pour que le CLT tienne. Il y a des cas où le CLT tient même si ces conditions ne le sont pas. Je pense donc que si nous ne limitons pas les écarts, il n'y a pas de réponse unique et le problème devient totalement spécifique au cas. Même le livre de Billingsley n'est pas clair à ce sujet. La question est de savoir à quoi ressemblera le reste et ce que nous pouvons en dire.
Alecos Papadopoulos