Existe-t-il un exemple de l’inégalité unilatérale de Chebyshev?

32

Je suis intéressé par la version unilatérale suivante de Cantelli de l'inégalité de Chebyshev :

P(XE(X)t)Var(X)Var(X)+t2.

En gros, si vous connaissez la moyenne et la variance de la population, vous pouvez calculer la limite supérieure de la probabilité d'observer une certaine valeur. (C'était ma compréhension au moins.)

Cependant, j'aimerais utiliser la moyenne et la variance de l'échantillon à la place de la moyenne et de la variance réelles de la population.

Je suppose que puisque cela introduirait plus d'incertitude, la limite supérieure augmenterait.

Existe-t-il une inégalité analogue à la précédente, mais utilisant la moyenne de l'échantillon et la variance?

Edit : L’analogue "exemple" de l’inégalité de Chebyshev (pas à sens unique) a été élaborée. La page Wikipedia contient quelques détails. Cependant, je ne suis pas sûr de savoir comment cela se traduirait par le cas unilatéral que j'ai ci-dessus.

casandra
la source
Merci Glen_b. C'est un problème assez intéressant. J'ai toujours pensé que l'inégalité de Chebyshev était puissante (puisqu'elle permet l'inférence statistique sans nécessiter de distribution de probabilité); donc être capable de l'utiliser avec la moyenne et la variance de l'échantillon serait assez impressionnant.
casandra

Réponses:

26

Oui, nous pouvons obtenir un résultat analogue en utilisant la moyenne et la variance de l’échantillon, avec peut-être quelques surprises mineures dans le processus.

Premièrement, nous devons affiner un peu l’énoncé de la question et formuler quelques hypothèses. Il est important de noter qu'il est clair que nous ne pouvons pas espérer remplacer la variance de la population par la variance de l' échantillon du côté droit, car ce dernier est aléatoire ! Nous recentrons donc notre attention sur l'inégalité équivalente Au cas où il ne serait pas clair que ces valeurs soient équivalentes, notez que nous avons simplement remplacé t par t σ dans l'inégalité d'origine sans perte de généralité.

P(X-EXtσ)11+t2.
ttσ

Deuxièmement, nous supposons que nous avons un échantillon aléatoire et nous sommes intéressés à une limite supérieure pour la quantité analogue P ( X 1 - ˉ Xt S ) , où ˉ X est la moyenne d' échantillon et S est l’écart type de l’échantillon.X1,,XnP(X1-X¯tS)X¯S

Un demi-pas en avant

Notez que déjà en appliquant la unilatérale inégalité Tchebychev originale , nous obtenons que P ( X 1 - ˉ Xt σ ) 1X1X¯σ2=Var(X1), qui estplus petitque le côté droit de la version d'origine. C'est logique! Toute réalisation particulière d’une variable aléatoire à partir d’un échantillon aura tendance à être (légèrement) plus proche de la moyenne de l’échantillon auquel elle contribue que de la moyenne de la population. Comme nous le verrons plus loin, nous allons remplacerσparSsous des hypothèses encore plus générales.

P(X1X¯tσ)11+nn1t2
σ2=Var(X1)σS

Un exemple de version de Chebyshev unilatéral

Revendication : Soit un échantillon aléatoire tel que P ( S = 0 ) = 0 . Ensuite, P ( X 1 - ˉ Xt S ) 1X1,,XnP(S=0)=0En particulier, l'exemple de version de la liaison estplus étroitque la version d'origine.

P(X1X¯tS)11+nn1t2.

Remarque : Nous ne supposons pas que le ait une moyenne finie ou une variance!Xi

Preuve . L'idée est d'adapter la preuve de l'inégalité unilatérale de Chebyshev et d'utiliser la symétrie dans le processus. Tout d' abord, définissez pour de commodité notationnelle. Ensuite, observez que P ( Y 1t S ) = 1Yi=XiX¯

P(Y1tS)=1nΣje=1nP(YjetS)=E1nΣje=1n1(YjetS).

Maintenant, pour tout , on { S > 0 } , 1 ( Y it S ) = 1 ( Y i + t c S t S ( 1 + c ) )1 ( ( Y i + t c S ) 2t 2 ( 1 + c ) 2 S 2c>0{S>0}

1(YitS)=1(Yi+tcStS(1+c))1((Yi+tcS)2t2(1+c)2S2)(Yi+tcS)2t2(1+c)2S2.

1ni1(YitS)1ni(Yi+tcS)2t2(1+c)2S2=(n1)S2+nt2c2S2nt2(1+c)2S2=(n1)+nt2c2nt2(1+c)2,
since Y¯=0 and iYi2=(n1)S2.

The right-hand side is a constant (!), so taking expectations on both sides yields,

P(X1X¯tS)(n1)+nt2c2nt2(1+c)2.
Finally, minimizing over c, yields c=n1nt2, which after a little algebra establishes the result.

That pesky technical condition

Note that we had to assume P(S=0)=0 in order to be able to divide by S2 in the analysis. This is no problem for absolutely continuous distributions, but poses an inconvenience for discrete ones. For a discrete distribution, there is some probability that all observations are equal, in which case 0=Yi=tS=0 for all i and t>0.

We can wiggle our way out by setting q=P(S=0). Then, a careful accounting of the argument shows that everything goes through virtually unchanged and we get

Corollary 1. For the case q=P(S=0)>0, we have

P(X1X¯tS)(1q)11+nn1t2+q.

Proof. Split on the events {S>0} and {S=0}. The previous proof goes through for {S>0} and the case {S=0} is trivial.

A slightly cleaner inequality results if we replace the nonstrict inequality in the probability statement with a strict version.

Corollary 2. Let q=P(S=0) (possibly zero). Then,

P(X1X¯>tS)(1q)11+nn1t2.

Final remark: The sample version of the inequality required no assumptions on X (other than that it not be almost-surely constant in the nonstrict inequality case, which the original version also tacitly assumes), in essence, because the sample mean and sample variance always exist whether or not their population analogs do.

cardinal
la source
15

Ceci est juste un complément à la réponse ingénieuse de @ cardinal. Samuelson Inequality , indique que, pour un échantillon de taillen, quand on a au moins trois valeurs distinctes du réalisé Xjeil est dit que

Xje-X¯<sn-1,je=1,...n
s est calculé sans la correction de biais, s=(1nΣje=1n(Xje-X¯)2)1/2.

Ensuite, en utilisant la notation de la réponse de Cardinal, nous pouvons affirmer que

P(X1-X¯Sn-1)=0une.s.[1]

Puisque nous avons besoin de trois valeurs distinctes, nous aurons S0par hypothèse. Donc miset=n-1 dans Inégalité de Cardinal (la version initiale) nous obtenons

P(X1-X¯Sn-1)11+n,[2]

Éq. [2] est bien sur compatible avec eq. [1]. La combinaison des deux nous dit que l’inégalité de Cardinal est utile comme déclaration probabiliste pour0<t<n-1.

Si l'inégalité de Cardinal exige S être calculé corrigé en biais (appelez le S~) alors les équations deviennent

P(X1-X¯S~n-1n)=0une.s.[1une]

et nous choisissons t=n-1n obtenir par l'inégalité de cardinal

P(X1-X¯S~n-1n)1n,[2une]
et l'intervalle probabilistiquement significatif pour t est 0<t<n-1n.
Alecos Papadopoulos
la source
2
(+1) Incidentally, as I was first considering this problem, the fact that maxi|XiX¯|Sn1 was actually the initial clue that the sample inequality should be tighter than the original. I wanted to squeeze that into my post, but couldn't find a (comfortable) place for it. I'm glad to see you mention it (actually a very slight improvement on it) here along with your very nice additional elaboration. Cheers.
cardinal
Cheers @Cardinal, great answer -just clarify for me -does it matter for your Inequality how one defines the sample variance (bias-corrected or not)?
Alecos Papadopoulos
Only ever so slightly. I used the bias-corrected sample variance. If you use n instead of n1 to normalize, then you'll end up with
1+t2c2t2(1+c)2
instead of
(n1)+nt2c2nt2(1+c)2,
which means the n/(n1) term in the final inequality will disappear. Thus, you'll get the same bound as in the original one-sided Chebyshev inequality in that case. (Assuming I've done the algebra correctly.) :-)
cardinal
@Cardinal ...which means that the relevant equations in my answer are 1a and 2a, which means that your inequality tells us that for t chosen to activate Samuelson Inequality, the probability of the event we are examining, cannot be greater than 1/n, i.e. not greater than randomly choosing any one realized value from the sample... which somehow makes some hazy intuitive sense: what is proven certainly impossible in deterministic terms, when approached probabilistically its probability bound does not exceed equiprobability... not clear in my mind yet.
Alecos Papadopoulos