Je suis intéressé par la version unilatérale suivante de Cantelli de l'inégalité de Chebyshev :
En gros, si vous connaissez la moyenne et la variance de la population, vous pouvez calculer la limite supérieure de la probabilité d'observer une certaine valeur. (C'était ma compréhension au moins.)
Cependant, j'aimerais utiliser la moyenne et la variance de l'échantillon à la place de la moyenne et de la variance réelles de la population.
Je suppose que puisque cela introduirait plus d'incertitude, la limite supérieure augmenterait.
Existe-t-il une inégalité analogue à la précédente, mais utilisant la moyenne de l'échantillon et la variance?
Edit : L’analogue "exemple" de l’inégalité de Chebyshev (pas à sens unique) a été élaborée. La page Wikipedia contient quelques détails. Cependant, je ne suis pas sûr de savoir comment cela se traduirait par le cas unilatéral que j'ai ci-dessus.
Réponses:
Oui, nous pouvons obtenir un résultat analogue en utilisant la moyenne et la variance de l’échantillon, avec peut-être quelques surprises mineures dans le processus.
Premièrement, nous devons affiner un peu l’énoncé de la question et formuler quelques hypothèses. Il est important de noter qu'il est clair que nous ne pouvons pas espérer remplacer la variance de la population par la variance de l' échantillon du côté droit, car ce dernier est aléatoire ! Nous recentrons donc notre attention sur l'inégalité équivalente Au cas où il ne serait pas clair que ces valeurs soient équivalentes, notez que nous avons simplement remplacé t par t σ dans l'inégalité d'origine sans perte de généralité.
Deuxièmement, nous supposons que nous avons un échantillon aléatoire et nous sommes intéressés à une limite supérieure pour la quantité analogue P ( X 1 - ˉ X ≥ t S ) , où ˉ X est la moyenne d' échantillon et S est l’écart type de l’échantillon.X1, … , Xn P ( X1- X¯≥ t S) X¯ S
Un demi-pas en avant
Notez que déjà en appliquant la unilatérale inégalité Tchebychev originale , nous obtenons que P ( X 1 - ˉ X ≥ t σ ) ≤ 1X1−X¯
oùσ2=Var(X1), qui estplus petitque le côté droit de la version d'origine. C'est logique! Toute réalisation particulière d’une variable aléatoire à partir d’un échantillon aura tendance à être (légèrement) plus proche de la moyenne de l’échantillon auquel elle contribue que de la moyenne de la population. Comme nous le verrons plus loin, nous allons remplacerσparSsous des hypothèses encore plus générales.
Un exemple de version de Chebyshev unilatéral
Remarque : Nous ne supposons pas que le ait une moyenne finie ou une variance!Xi
Preuve . L'idée est d'adapter la preuve de l'inégalité unilatérale de Chebyshev et d'utiliser la symétrie dans le processus. Tout d' abord, définissez pour de commodité notationnelle. Ensuite, observez que P ( Y 1 ≥ t S ) = 1Yi=Xi−X¯
Maintenant, pour tout , on { S > 0 } , 1 ( Y i ≥ t S ) = 1 ( Y i + t c S ≥ t S ( 1 + c ) ) ≤ 1 ( ( Y i + t c S ) 2 ≥ t 2 ( 1 + c ) 2 S 2c > 0 { S> 0 }
The right-hand side is a constant (!), so taking expectations on both sides yields,
That pesky technical condition
Note that we had to assumeP(S=0)=0 in order to be able to divide by S2 in the analysis. This is no problem for absolutely continuous distributions, but poses an inconvenience for discrete ones. For a discrete distribution, there is some probability that all observations are equal, in which case 0=Yi=tS=0 for all i and t>0 .
We can wiggle our way out by settingq=P(S=0) . Then, a careful accounting of the argument shows that everything goes through virtually unchanged and we get
Proof. Split on the events{S>0} and {S=0} . The previous proof goes through for {S>0} and the case {S=0} is trivial.
A slightly cleaner inequality results if we replace the nonstrict inequality in the probability statement with a strict version.
Final remark: The sample version of the inequality required no assumptions onX (other than that it not be almost-surely constant in the nonstrict inequality case, which the original version also tacitly assumes), in essence, because the sample mean and sample variance always exist whether or not their population analogs do.
la source
Ceci est juste un complément à la réponse ingénieuse de @ cardinal. Samuelson Inequality , indique que, pour un échantillon de taillen , quand on a au moins trois valeurs distinctes du réalisé Xje il est dit que
Ensuite, en utilisant la notation de la réponse de Cardinal, nous pouvons affirmer que
Puisque nous avons besoin de trois valeurs distinctes, nous auronsS≠ 0 par hypothèse. Donc miset = n - 1-----√ dans Inégalité de Cardinal (la version initiale) nous obtenons
Éq.[ 2 ] est bien sur compatible avec eq. [ 1 ] . La combinaison des deux nous dit que l’inégalité de Cardinal est utile comme déclaration probabiliste pour0 < t < n - 1-----√ .
Si l'inégalité de Cardinal exigeS être calculé corrigé en biais (appelez le S~ ) alors les équations deviennent
et nous choisissonst = n - 1n√ obtenir par l'inégalité de cardinal
la source