Pour un nombre constant donné (par exemple 4), est-il possible de trouver une distribution de probabilité pour , de sorte que nous ayons ?
Pour un nombre constant donné (par exemple 4), est-il possible de trouver une distribution de probabilité pour , de sorte que nous ayons ?
En considérant soigneusement les cas pour : si alors la distribution est dégénérée, mais pourrait avoir n'importe quelle moyenne. Autrement dit, et \ Pr (X = c) = 0 pour tout c \ neq \ mu . Nous pouvons donc trouver de nombreuses distributions possibles pour X , mais elles sont indexées et complètement spécifiées par \ mu \ in \ mathbb {R} .
Si , aucune distribution ne peut être trouvée, car .V a r ( X ) = E ( X - μ X ) 2 ≥ 0
Pour , la réponse dépendra de ce que plus d' informations sont connues sur . Par exemple, si est connu pour avoir une moyenne , alors pour tout et nous pouvons trouver une distribution avec ces moments en prenant . Ce n'est pas une solution unique au problème de l'adéquation moyenne et variance, mais c'est la seule solution normalement distribuée (et de toutes les solutions possibles, c'est celle qui maximise l'entropie, comme le souligne Daniel). Si vous souhaitez également faire correspondre, par exemple, le troisième moment central , ou plus, vous devrez alors envisager une gamme plus large de distributions de probabilité.X X μ μ ∈ R r > 0 X ∼ N ( μ , r )
Supposons plutôt que nous disposions d'informations sur la distribution de plutôt que sur ses moments. Par exemple, si nous savons que suit une distribution de Poisson, alors la solution unique serait . Si nous savons que suit une distribution exponentielle, il existe encore une solution unique , où nous avons trouvé le paramètre en résolvant .X X ∼ P o i s s o n ( r ) X X ∼ E x p o n e n t i a l ( 1Var(X)=r=1
Dans d'autres cas, nous pouvons trouver toute une famille de solutions. Si nous savons que suit une distribution rectangulaire (uniforme continue), alors nous pouvons trouver une largeur unique pour la distribution en résolvant . Mais il y aura toute une famille de solutions, paramétré par - les distributions de cet ensemble sont toutes des traductions les unes des autres. De même, si est normal, alors n'importe quelle distribution fonctionnerait (nous avons donc tout un ensemble de solutions indexées par , qui peut encore être n'importe quel nombre réel, et encore une fois la famille est toutes les traductions les uns des autres). Siw V a r ( X ) = r = w 2 X∼U(a,a+w)a∈RXX∼N(μ,r)μXX∼Gamma(r suit une distribution gamma puis, en utilisant le paramétrage de l'échelle de forme, nous pouvons obtenir toute une famille de solutions, paramétré par . Les membres de cette famille ne sont pas des traductions les uns des autres. Pour vous aider à visualiser à quoi pourrait ressembler une "famille de solutions", voici quelques exemples de distributions normales indexées par , puis des distributions gamma indexées par , toutes avec une variance égale à quatre, correspondant à l'exemple dans ta question.θ>0μθr=4
D'un autre côté, pour certaines distributions, il peut ou non être possible de trouver une solution, selon la valeur de . Par exemple, si doit être une variable de Bernoulli, alors pour il y a deux solutions possibles car il y a deux probabilités qui résolvent l'équation , et en fait ces deux probabilités sont complémentaires c'est-à-dire . Pour il n'y a que la solution unique , et pour aucune distribution de Bernoulli n'a une variance suffisamment élevée.X 0 ≤ r < 0,25 X ∼ B e r n o u l l i ( p ) p V a r ( X ) = r = p ( 1 - p ) p 1 + p 2 = 1 r = 0,25 p = 0,5 r > 0,25
Je pense que je devrais également mentionner le cas . Il existe également des solutions pour ce cas, par exemple une distribution de Student avec deux degrés de liberté.t
Code R pour les parcelles
require(ggplot2)
x.df <- data.frame(x = rep(seq(from=-8, to=8, length=100), times=5),
mu = rep(c(-4, -2, 0, 2, 4), each=100))
x.df$pdf <- dnorm(mean=x.df$mu, x.df$x)
ggplot(x.df, aes(x=x, y=pdf, group=factor(mu), colour=factor(mu))) + theme_bw() +
geom_line(size=1) + scale_colour_brewer(name=expression(mu), palette="Set1") +
theme(legend.key = element_blank()) + ggtitle("Normal distributions with variance 4")
x.df <- data.frame(x = rep(seq(from=0, to=20, length=1000), times=5),
theta = rep(c(0.25, 0.5, 1, 2, 4), each=1000))
x.df$pdf <- dgamma(x.df$x, shape=4/(x.df$theta)^2, scale=x.df$theta)
ggplot(x.df, aes(x=x, y=pdf, group=factor(theta), colour=factor(theta))) + theme_bw() +
geom_line(size=1) + scale_colour_brewer(name=expression(theta), palette="Set1") +
theme(legend.key = element_blank()) + ggtitle("Gamma distributions with variance 4") +
coord_cartesian(ylim = c(0, 1))
En supposant que vous voulez dire «est-il possible de trouver une distribution de probabilité pour », la réponse est oui, car vous n'avez spécifié aucun critère auquel doit satisfaire. En fait, il existe un nombre infini de distributions possibles qui satisferaient à cette condition. Considérons simplement une distribution normale, . Vous pouvez définir et peut prendre n'importe quelle valeur que vous souhaitez - vous aurez alors comme requis.X N ( x ; μ , σ 2 ) σ 2 = r μ V a r [
En fait, la distribution normale est plutôt spéciale à cet égard car il s'agit de la distribution de probabilité d'entropie maximale pour une moyenne et une variance données.
Cette question peut être interprétée d'une manière qui la rend intéressante et pas entièrement triviale. Étant donné quelque chose qui ressemble à une variable aléatoire, dans quelle mesure est-il possible d'attribuer des probabilités à ses valeurs (ou de déplacer les probabilités existantes) de telle manière que sa variance soit égale à un certain nombre prédéfini ? La réponse est que toutes les valeurs possibles sont autorisées, jusqu'à une limite déterminée par la plage de .
L'intérêt potentiel d'une telle analyse réside dans l'idée de changer une mesure de probabilité, tout en maintenant une variable aléatoire fixe, afin d'atteindre une fin particulière. Bien que cette application soit simple, elle affiche certaines des idées sous-jacentes au théorème de Girsanov , un résultat fondamental en finance mathématique.
Reprenons cette question de manière rigoureuse et sans ambiguïté. Supposer
est une fonction mesurable définie sur un espace mesure avec sigma-algèbre S . Pour un nombre réel donné r > 0 , quand peut-on trouver une mesure de probabilité P sur cet espace pour laquelle Var ( X ) = r ?
Je crois que la réponse est que cela est possible lorsque . (L'égalité peut être maintenue si le supremum et l'infimum sont tous deux atteints: c'est-à-dire qu'ils sont en fait le maximum et le minimum de) Lorsquesup(X)=∞ouinf(X)=-∞, cette condition n'impose aucune limite àr, puis toutes les valeurs non négatives de la variance sont possibles.
La preuve est par construction. Commençons par une version simple, pour prendre soin des détails et définir l'idée de base, puis passer à la construction réelle.
Soit dans l'image de X : cela signifie qu'il y a un ω x ∈ Ω pour lequel X ( ω x ) = x . Définissez la fonction définie P : S → [ 0 , 1 ] comme étant l'indicateur de ω x : c'est-à-dire P ( A ) = 0 si ω x ∉ A et P ( A ) = 1 lorsque ω x .
Puisque , évidemment P satisfait les deux premiers axiomes de probabilité . Il faut montrer qu'il satisfait le troisième; à savoir, qu'il est sigma-additif. Mais cela est presque aussi évident: chaque fois que { E i , i = 1 , 2 , … } est un ensemble fini ou infiniment infini d'événements mutuellement exclusifs, alors aucun d'eux ne contient ω x - auquel cas P ( E i ) = 0 pour tout i- ou exactement l'un d'eux contient , auquel cas P ( E j ) = 1 pour un j particulier et sinon P ( E i ) = 0 pour tout i ≠ j . Dans tous les cas
parce que les deux côtés sont à la fois ou 1 .
Puisque concentre toute la probabilité sur ω x , la distribution de X est concentrée sur x et X doit avoir une variance nulle.
Soit deux valeurs dans la gamme de X ; c'est-à-dire, X ( ω 1 ) = x 1 et X ( ω 2 ) = x 2 . De manière similaire à l'étape précédente, définissez une mesure P comme étant une moyenne pondérée des indicateurs de ω 1 et ω 2 . Utilisez des poids non négatifs 1 - p et p pour p à déterminer. Comme précédemment, nous constatons que P- étant une combinaison convexe des mesures d'indicateur discutées en (1) - est une mesure de probabilité. La distribution de par rapport à cette mesure est une distribution de Bernoulli ( p ) qui a été mise à l'échelle par x 2 - x 1 et décalée de - x 1 . Parce que la variance d'une distribution de Bernoulli ( p ) est p ( 1 - p ) , la variance de X doit être ( x 2 - x 1 ) 2 p ( .
Une conséquence immédiate de (2) est que tout pour lequel il existe x 1 ≤ x 2 dans la gamme de X et 0 ≤ p < 1 pour lequel
peut être la variance de . Etant donné que 0 ≤ p ( 1 - p ) ≤ 1 / 4 , ce qui implique
avec égalité si et seulement si a un maximum et un minimum.
A l' inverse, si dépasse cette limite de ( sup ( X ) - inf ( X ) ) 2 / 4 , aucune solution est possible, puisque nous savons déjà que la variance d'une variable aléatoire bornée ne peut pas dépasser un quart carré de sa gamme.