Quelle est la différence entre variance finie et infinie

33

Quelle est la différence entre variance finie et infinie? Mes statistiques sont plutôt basiques. Wikipedia / Google n'était pas d'une grande aide ici.

AfterWorkGuinness
la source
8
Les distributions avec une variance infinie sont lourdes ; il y a beaucoup de valeurs aberrantes et peuvent avoir des propriétés différentes de celles que l'on a l'habitude de voir. Par exemple, la moyenne d'échantillons d'échantillons tirés d'une distribution de Cauchy a la même distribution (Cauchy) que les échantillons individuels. Ceci est très différent de la croyance habituelle selon laquelle la moyenne de l'échantillon est un meilleur "estimateur" que tout échantillon individuel.
Dilip Sarwate
4
Non, la queue lourde n'est pas la même chose que d'avoir une variance infinie, ou du moins, pas à mon avis. Cependant, je ne suis pas un statisticien et vous devriez donc attendre une réponse plus autorisée de la part d'utilisateurs très bien classés sur ce forum.
Dilip Sarwate
4
La variance infinie se produit lorsque l'intégrale (la somme) définissant la variance de la population augmente au-delà de toute limite finie lorsque la limite est prise. Quelques discussions sur des exemples ici
Glen_b -Reinstate Monica
2
Je pense que plus important encore, la plupart des théorèmes limites centraux ne tiennent pas pour une telle population et ainsi certains résultats courants vont s'effondrer.
Henry.L
1
Point important: si la variance d'une population est infinie, mais que la variance d'un échantillon est finie, toute estimation de la variance ou de l'écart type de la population à l'aide d'une statistique d'échantillon telle que s2 ou s , puis sn sera plutôt mal biaisé. Étant donné que tant de statistiques de test sont basées sur une mesure d'effet normalisée sur une erreur type estimée et que tant d'IC ​​sont basées sur une mise à l'échelle basée sur une erreur type estimée, cela signifie quel'inférence statistique sur les variables à variance infinie être plutôt mal biaisé.
Alexis

Réponses:

48

Qu'est-ce que cela signifie pour une variable aléatoire d'avoir "variance infinie"? Qu'est-ce que cela signifie pour une variable aléatoire d'avoir une espérance infinie? L'explication dans les deux cas est assez similaire, commençons donc par le cas de l'attente, puis par la variance.

Soit une variable aléatoire continue (RV) (nos conclusions seront valables plus généralement, pour le cas discret, remplacez intégrale par somme). Pour simplifier l'exposition, supposons que X 0 .XX0

Son attente est définie par l'intégrale quand cette intégrale existe, c'est-à-dire est finie. Sinon, nous disons que l'attente n'existe pas. C'est une intégrale non conforme, et par définition est 0 x f ( x )

EX=0xf(x)dx
Pour cette limite soit finie, la contribution de la queue doit disparaître, qui est, il faut avoir lim a un x f ( x )
0xf(x)dx=lima0axf(x)dx
Une condition nécessaire (mais non suffisante) pour que ce soit le cas est lim x x f ( x ) = 0 . La condition affichée ci-dessus indique que lacontribution à l'attente de la (droite) queue doit être en train de disparaître. Si tel n'est pas le cas, l'attenteest dominée par les contributions de valeurs réalisées arbitrairement grandes. En pratique, cela signifie que les moyens empiriques seront très instables, car ilsseront dominés par les très grandes valeurs peu fréquentes réalisées.
limaaxf(x)dx=0
limxxf(x)=0. Et notez que cette instabilité des moyennes d'échantillon ne disparaîtra pas avec les grands échantillons - c'est une partie intégrante du modèle!

Dans de nombreuses situations, cela semble irréaliste. Disons un modèle d'assurance (vie), donc modélise une partie de la vie (humaine). Nous savons que, par exemple, X > 1000 ne se produit pas, mais dans la pratique, nous utilisons des modèles sans limite supérieure. La raison est claire: Pas dur limite supérieure est connue, si une personne est (disons) 110 ans, il n'y a aucune raison qu'il ne peut pas vivre un an! Ainsi, un modèle avec une limite supérieure stricte semble artificiel. Néanmoins, nous ne voulons pas que l'extrême extrême supérieure ait beaucoup d'influence.XX>1000

Si a une espérance finie, nous pouvons modifier le modèle afin d’avoir une limite supérieure stricte sans influence excessive sur le modèle. Dans les situations avec une limite supérieure floue, cela semble bon. Si le modèle a des attentes infinies, toute limite supérieure stricte que nous introduirons dans le modèle aura des conséquences dramatiques! Telle est la véritable importance d'une attente infinie.X

Avec des attentes finies, nous pouvons être flous sur les limites supérieures. Avec une attente infinie, nous ne pouvons pas .

On peut dire à peu près la même chose de la variance infinie, mutatis mutandi.

Pour clarifier, voyons un exemple. Pour l'exemple, nous utilisons la distribution Pareto, implémentée dans le package R (sur CRAN), en tant que pareto1 - distribution Pareto à paramètre unique également connue sous le nom de distribution Pareto de type 1. Il a une fonction de densité de probabilité donnée par pour certains paramètresm>0,α>0. Lorsqueα>1l'attente existe et est donnée parα

f(x)={αmαxα+1,xm0,x<m
m>0,α>0α>1. Lorsqueα1,l'attente n'existe pas ou, comme on dit, elle est infinie, car l'intégrale qui la définit diverge à l'infini. Nous pouvons définir ladistributiondupremier moment(voir le postQuand utiliserions-nous les tantiles et le médian, plutôt que les quantiles et la médiane? Pour certaines informations et références) comme E(M)=αα1mα1 (cela existe sans tenir compte de si l'espérance elle-même existe). (Éditer plus tard: j'ai inventé le nom "distribution du premier moment, plus tard j'ai appris que cela est lié à ce qui est" officiellement "nommeles moments partiels).
E(M)=mMxf(x)dx=αα1(mmαMα1)

Lorsque l'attente existe ( ) nous pouvons diviser par pour obtenir la première distribution moment relatif, donné par E r ( M ) = E ( m ) / E ( ) = 1 - ( mα>1 Lorsqueαest juste un peu plus grand que 1, alors l’attente "existe à peine", l’intégrale définissant l’espérance converge lentement. Regardons l'exemple avecm=1,α=1.2. Soit ensuite tracerEr(M)avec l'aide de R:

Er(M)=E(m)/E()=1(mM)α1
αm=1,α=1.2Er(M)
### Function for opening new plot file:
open_png  <-  function(filename) png(filename=filename,
                                     type="cairo-png")

library(actuar) # from CRAN
### Code for Pareto type I distribution:
# First plotting density and "graphical moments" using ideas from http://www.quantdec.com/envstats/notes/class_06/properties.htm   and used some times at cross validated

m  <-  1.0
alpha <- 1.2
# Expectation:
E   <-  m * (alpha/(alpha-1))
# upper limit for plots:
upper  <- qpareto1(0.99, alpha, m)   
#
open_png("first_moment_dist1.png")
Er  <- function(M, m, alpha) 1.0 - (m/M)^(alpha-1.0)
### Inverse relative first moment distribution function,  giving
#   what we may call "expectation quantiles":
Er_inv  <-   function(eq, m, alpha) m*exp(log(1.0-eq)/(1-alpha))     

plot(function(M) Er(M, m, alpha), from=1.0,  to=upper)
plot(function(M) ppareto1(M, alpha, m), from=1.0,  to=upper, add=TRUE,  col="red")
dev.off()

qui produit cette parcelle:

enter image description here

μα>2

La fonction Er_inv définie ci-dessus est la distribution inverse relative du premier moment, analogue à la fonction quantile. On a:

> ### What this plot shows very clearly is that most of the contribution to the expectation come from the very extreme right tail!
# Example   
eq  <-  Er_inv(0.5, m, alpha)
ppareto1(eq, alpha, m)
eq

> > > [1] 0.984375
> [1] 32
> 

Cela montre que 50% des contributions aux attentes proviennent de la limite supérieure de 1,5% de la distribution! Ainsi, en particulier dans les petits échantillons où il existe une forte probabilité que la queue extrême ne soit pas représentée, la moyenne arithmétique, tout en restant un estimateur non biaisé de l'espérance.μ, doit avoir une distribution très asymétrique. Nous allons étudier cela par simulation: d'abord, nous utilisons une taille d'échantillonn=5.

set.seed(1234)
n  <-  5
N  <-  10000000  # Number of simulation replicas
means  <-  replicate(N,  mean(rpareto1(n, alpha, m) ))


> mean(means)
[1] 5.846645
> median(means)
[1] 2.658925
> min(means)
[1] 1.014836
> max(means)
[1] 633004.5
length(means[means <=100])
[1] 9970136

Pour obtenir un graphique lisible, nous affichons uniquement l'histogramme de la partie de l'échantillon dont les valeurs sont inférieures à 100, ce qui représente une très grande partie de l'échantillon.

open_png("mean_sim_hist1.png")
hist(means[means<=100],  breaks=100, probability=TRUE)
dev.off()

enter image description here

La distribution des moyens arithmétiques est très asymétrique,

> sum(means <= 6)/N
[1] 0.8596413
> 

près de 86% des moyennes empiriques sont inférieures ou égales à la moyenne théorique, l’attente. C’est ce à quoi nous devrions nous attendre, étant donné que la majeure partie de la contribution à la moyenne provient de la partie supérieure extrême, qui n’est pas représentée dans la plupart des échantillons .

Nous devons revenir en arrière pour réévaluer notre conclusion précédente. Alors que l’existence de la moyenne permet d’être floue sur les limites supérieures, nous voyons que lorsque "la moyenne existe à peine", ce qui signifie que l’intégrale converge lentement, nous ne pouvons pas vraiment être aussi flous sur les limites supérieures . Des intégrales lentement convergentes ont pour conséquence qu'il pourrait être préférable d'utiliser des méthodes qui ne supposent pas que l'attente existe . Lorsque l’intégrale converge très lentement, c’est comme si elle ne convergeait pas du tout. Les avantages pratiques d'une intégrale convergente sont une chimère dans le cas de la convergence lente! C’est une manière de comprendre la conclusion de NN Taleb dans http://fooledbyrandomness.com/complexityAugust-06.pdf

kjetil b halvorsen
la source
2
Réponse fantastique.
Karl
2

La variance est la mesure de la dispersion de la distribution des valeurs d'une variable aléatoire. Ce n'est pas la seule mesure de ce type, par exemple, la déviation absolue moyenne en est une alternative.

La variance infinie signifie que les valeurs aléatoires ne tendent pas à se concentrer trop étroitement autour de la moyenne . Cela pourrait signifier qu'il existe une probabilité suffisamment grande que le prochain nombre aléatoire soit très éloigné de la moyenne.

Les distributions telles que Normal (gaussienne) peuvent produire des nombres aléatoires très éloignés de la moyenne, mais la probabilité de tels événements décroît très rapidement avec l'ampleur de l'écart.

À cet égard, lorsque vous examinez l’intrigue de la distribution de Cauchy ou d’une distribution gaussienne (normale), leur apparence n’est pas très différente. Cependant, si vous essayez de calculer la variance de la distribution de Cauchy, elle sera infinie, alors que celle de Gaussian sera finie. Ainsi, la distribution normale est plus étroite autour de sa moyenne par rapport à celle de Cauchy.

Au fait, si vous parlez à des mathématiciens, ils insisteront sur le fait que la distribution de Cauchy n'a pas de signification bien définie, qu'elle est infinie. Cela semble ridicule aux physiciens qui insistent sur le fait que Cauchy est symétrique et qu’elle doit donc avoir une moyenne. Dans ce cas, ils diraient que le problème vient de votre définition de la moyenne et non de la distribution de Cauchy.

Aksakal
la source
2
Êtes-vous sûr des mathématiciens et des physiciens? Mon impression est que physisicst peut être très rigoureux sur de telles choses! Voir ma réponse, la convergence lente fait une valeur de peu de valeur! En outre, aucun mathématicien ne dirait que Cauchy a une moyenne infinie, la limite appropriée défendant l'intégrale n'existe tout simplement pas, car elle diverge dans les deux queues. Parler de l'attente d'être ou -n’a de sens que lorsque la divergence n’est que dans une queue.
kjetil b halvorsen
1
@kjetilbhalvorsen, "aucun mathématicien ne dirait que Cauchy a une moyenne infinie" - cela veut dire que ce que je veux dire est exactement ce que m'a dit mon professeur de statistiques, alors que mon conseiller de Physcis était surpris qu'il y ait même une question à propos de la moyenne, "Bien sûr, c'est zéro, et si vous n'êtes pas d'accord, il y a quelque chose qui cloche dans votre définition du
mot
Vous lui avez demandé sa définition de la moyenne?
Commentaires
@kjetilbhalvorsen, intégrale de Riemann si vous parlez de prof de maths. Son argument est que dans Riemann sum, vous ne définissez pas un certain ordre de somme ou de partitionnement de somme, votre somme sera donc infinie. Le point des physiciens est une symétrie, il est clair qu'il "doit être nul"
Aksakal
1
Ensuite, vous pourrez peut-être lui dire qu'il a défini la médiane, pas la moyenne.
Commentaires
2

Une autre façon de regarder est par la fonction quantile.

Q(F(X))=X

Ensuite, nous pouvons calculer un moment ou une attente

E(T(x))=T(x)f(x)dx

alternatively as (replacing f(x)dx=dF):

E(T(x))=01T(Q(F))dF

Say we wish to compute the first moment then T(x)=x. In the image below this corresponds to the area between F and the vertical line at x=0 (where the area on the left side may count as negative when T(x)<0). The second moment would correspond to the volume that the same area sweeps when it is rotated along the line at x=0 (with a factor π difference).

Cauchy versus Normal

The curves in the image show how much each quantile contributes in the computation.

For the normal curve there are only very few quantiles with a large contribution. But for the Cauchy curve there are many more quantiles with a large contribution. If the curve T(Q(F)) goes sufficiently fast enough to infinity when F approaches zero or one, then the area can be infinite.

This infinity may not be so strange since the integrand itself distance (mean) or squared distance (variance) can become infinite. It is only a question how much weight, how much percent of F, those infinite tails have.

In the summation/integration of distance from zero (mean) or squared distance from the mean (variance) a single point that is very far away will have more influence on the average distance (or squared distance) than a lot of points nearby.

Thus when we move towards infinity the density may decrease, but the influence on the sum of some (increasing) quantity, e.g. distance or squared distance does not necessarily change.

If for each amount of mass at some distance x there is half or more mass at a distance 2x then you will get that the sum of total mass 12n will converge because the contribution of mass decreases, but the variance becomes infinite since that contribution does not decrease ((2x)n)212n

Sextus Empiricus
la source
1

Most distributions you encounter probably have finite variance. Here is a discrete example X that has infinite variance but finite mean:

Let its probability mass function be p(k)=c/|k|3, for kZ{0}, p(0)=0, where c=(2ζ(3))1:=(2k=11/k3)1<. First of all because EX∣< it has finite mean. Also it has infinite variance because 2k=1k2/|k|3=2k=1k1=.

Note: ζ(x):=k=1kx is the Riemann zeta function. There are many other examples, just not so pleasant to write down.

John Jiang
la source
4
Just because the distribution is symmetric (i.e. an even function), does not necessarily make the mean 0; the mean may not exist because the sum/integral turns out to be of the form
Dilip Sarwate