Qu'est-ce qui rend la moyenne de certaines distributions non définie?

21

De nombreux fichiers PDF vont de moins à l'infini positif, mais certains moyens sont définis et d'autres non. Quel trait commun rend certains calculables?

Kevin Nowaczyk
la source
14
Intégrales convergentes.
Sycorax dit Réintégrer Monica le
1
Ces distributions sont des abstractions mathématiques. Si l'intégrale ne converge pas, la moyenne n'est pas définie. Cependant, ce qui n'est pas mentionné dans les réponses ci-dessous, c'est que les fichiers PDF avec moins l'infini à plus l'infini ne peuvent pas modéliser de vraies sources de données. Il n'existe aucun processus physique de ce type pour générer de telles données dans la vie réelle. À mon avis, toutes les sources de données réelles seront limitées et vous pourrez approximer la moyenne.
Cagdas Ozgenc
3
@Cagdas Cette remarque ne semble pas être correcte. Il existe de nombreux processus à queue lourde. Leurs attentes divergentes se manifestent par une extrême variabilité des moyennes à long terme. Pour une application convaincante d'un modèle Cauchy, par exemple, voir le post de Douglas Zare sur stats.stackexchange.com/a/36037/919 .
whuber
2
@CagdasOzgenc: Vous devriez lire Black Swan de Taleb pour voir à quel point ce raisonnement est faux. Bien qu'heuristiquement, il puisse ne pas y avoir de processus qui génère parfaitement une distribution avec une moyenne indéfinie ou une moyenne infinie, il existe de nombreux exemples où les gens sous-estiment à quel point les queues sont grosses de leur distribution et procèdent au calcul des moyennes, tandis que la vraie distribution a un signifie que c'est complètement différent et généralement asymétrique. Ce type de raisonnement inapproprié a conduit à de nombreux gaf d'évaluation des risques dans la finance où le risque est sous-estimé par de nombreux ordres de grandeur.
Alex R.
1
@Cagdas Ozgenc: Pour une discussion sur la raison pour laquelle votre argument est erroné, voir stats.stackexchange.com/questions/94402/…
kjetil b halvorsen

Réponses:

23

La moyenne d'une distribution est définie en termes d'intégrale (je l'écrirai comme pour une distribution continue - comme une intégrale de Riemann, disons - mais le problème s'applique plus généralement; nous pouvons procéder à l'intégration de Stieltjes ou de Lebesgue pour traiter correctement et tout à la fois):

E(X)=xf(x)dx

Mais qu'est ce que ça veut dire? C'est effectivement un raccourci pour

a,blimabxf(x)dx

ou

alima0xf(x)dx+blim0bxf(x)dx

(bien que vous puissiez le casser n'importe où, pas seulement à 0)

Le problème survient lorsque les limites de ces intégrales ne sont pas finies.

Par exemple, considérons la densité de Cauchy standard, qui est proportionnelle à ... notez que11+x2

blim0bx1+x2dx

soit , donc d u = 2 xu=1+x2du=2xdx

=blim1211+b21udu

=blim12ln(u)|11+b2

=blim12ln(1+b2)

ce qui n'est pas fini. La limite dans la moitié inférieure n'est pas non plus finie; l'attente n'est donc pas définie.

Ou si nous avions comme variable aléatoire la valeur absolue d'un Cauchy standard, toute son attente serait proportionnelle à cette limite que nous venons de regarder (ie ).blim12ln(1+b2)

En revanche, certaines autres densités continuent à "à l'infini" mais leur intégrale a une limite.

Glen_b -Reinstate Monica
la source
1
Vous pouvez (bien sûr) voir la même chose dans des distributions de probabilité discrètes similaires. Prenez une distribution où la probabilité si se produisant, pour un entier , est proportionnelle à . La somme des probabilités est finie (ce qui est tout aussi bien car elle doit avoir la limite 1: en fait, notre constante doit être ou quoi que ce soit), mais puisque la somme de diverge, il n'a aucun moyen. Alors que si nous choisissons une probabilité proportionnelle à alors la moyenne implique une somme de et nous allons bien, c'est "suffisamment petit" pour qu'elle converge. n > 0 1nn>0 61n2 16π2 11n 11n31n2
Steve Jessop
1
Oui, est la constante de mise à l'échelle pour cela (pour faire la somme de 1). 6π2
Glen_b -Reinstate Monica
8

Les autres réponses sont bonnes, mais pourraient ne pas convaincre tout le monde, en particulier les personnes qui jettent un coup d'œil à la distribution de Cauchy (avec ) et disent qu'il est toujours intuitivement évident que la moyenne devrait être nulle.x0=0

La raison pour laquelle la réponse intuitive n'est pas correcte du point de vue mathématique est due au théorème de réarrangement de Riemann (vidéo) .

En fait, ce que vous faites lorsque vous regardez un Cauchy et que vous dites que la moyenne "devrait être zéro", c'est que vous divisez le "centre" à zéro, puis que vous revendiquez les moments de l'équilibre des deux tailles. Ou en d'autres termes, vous faites implicitement une somme infinie avec "la moitié" des termes positifs (les moments à chaque point à droite) et "la moitié" des termes négatifs (les moments à chaque point à gauche) et vous le réclamez somme à zéro. (Pour ceux qui ont l'esprit technique: )0f(x0+r)rdr0f(x0r)rdr=0

Le théorème de réarrangement de Riemann dit que ce type de somme infinie (une avec des termes positifs et négatifs) n'est cohérent que si les deux séries (termes positifs uniquement et termes négatifs uniquement) sont chacune convergentes lorsqu'elles sont prises indépendamment. Si les deux côtés (positif et négatif) sont divergents par eux-mêmes, alors vous pouvez trouver un ordre de sommation des termes tel qu'il résume à n'importe quel nombre. (Vidéo ci-dessus, à partir de 6h50)

Donc, oui, si vous faites la sommation de manière équilibrée à partir de 0, les premiers moments de la distribution de Cauchy s'annulent. Cependant, la définition (standard) de la moyenne n'applique pas cet ordre de sommation. Vous devriez pouvoir résumer les moments dans n'importe quel ordre et les faire valider également. Par conséquent, la moyenne de la distribution de Cauchy n'est pas définie - en choisissant judicieusement la façon dont vous additionnez les moments, vous pouvez les faire «équilibrer» (ou non) à pratiquement n'importe quel point.

Ainsi, pour définir la moyenne d'une distribution, les deux intégrales des moments doivent chacune être indépendamment convergentes (finies) autour de la moyenne proposée (qui, lorsque vous faites le calcul, n'est vraiment qu'une autre façon de dire que l'intégrale complète ( ) doit être convergent). Si les queues sont suffisamment "grasses" pour rendre le moment infini d'un côté, vous avez terminé. Vous ne pouvez pas l'équilibrer avec un moment infini de l'autre côté.f(x)xdx


Je dois mentionner que le comportement "contre-intuitif" de choses comme la distribution de Cauchy est entièrement dû à des problèmes lorsque l'on pense à l'infini. Prenez la distribution de Cauchy et coupez la queue - même arbitrairement loin, comme à plus / moins le nombre xkcd - et (une fois normalisé) vous obtenez soudainement quelque chose qui se comporte bien et a une moyenne définie. Ce ne sont pas les grosses queues en soi qui sont un problème, c'est leur comportement à l'approche de l'infini.

RM
la source
Agréable. Je me demande s'il est possible de donner un "ordre de sommation" exlicite qui mène, disons, à deux.
Matthew Drury
@MatthewDrury: p_i et n_i désignent des nombres positifs et négatifs. Trouver successivement p_i et n_i de sorte que l'intégrale sur [n_i, p_i] soit 2+ (1 / i) et l'intégrale sur [n_ {i + 1}, p_i] soit 2- (1 / i). On pourrait le faire explicitement en utilisant R, matlab ou mathématique, mais uniquement pour un nombre fini de termes.
David Epstein
7

Le général Abrial et Glen_b ont eu des réponses parfaites. Je veux juste ajouter une petite démo pour vous montrer que la moyenne de la distribution de Cauchy n'existe pas / ne converge pas.

Dans l'expérience suivante, vous verrez, même si vous obtenez un grand échantillon et calculez la moyenne empirique de l'échantillon, les chiffres sont assez différents d'une expérience à l'autre.

set.seed(0)
par(mfrow=c(1,2))
experiments=rep(1e5,100)
mean_list_cauchy=sapply(experiments, function(n) mean(rcauchy(n)))
mean_list_normal=sapply(experiments, function(n) mean(rnorm(n)))
plot(mean_list_cauchy,ylim=c(-10,10))
plot(mean_list_normal,ylim=c(-10,10))

entrez la description de l'image ici

Vous pouvez observer que nous avons expériences, et dans chaque expérience, nous échantillonnons points à partir de deux distributions, avec un si grand échantillon, la moyenne empirique à travers différentes expériences devrait être assez proche de la vraie moyenne. Les résultats montrent que la distribution de Cauchy n'a pas de moyenne convergente, contrairement à la distribution normale.1 × 10 51001×105

ÉDITER:

Comme @ mark999 mentionné dans le chat, nous devrions argumenter que les deux distributions utilisées dans l'expérience ont une "variance" similaire (la raison pour laquelle j'utilise la citation est parce que la variance de la distribution de Cauchy n'est pas non plus définie.). Voici la justification: leurs PDF sont similaires.

Notez que, en regardant le PDF de la distribution de Cauchy, nous supposerions que c'est , mais d'après les expériences que nous pouvons voir, il n'existe pas. C'est le point de la démo.0

curve(dnorm, -8,8)
curve(dcauchy, -8,8)

entrez la description de l'image ici

Haitao Du
la source
4
Je ne pense pas que cela montre que la distribution de Cauchy n'a aucun moyen. Vous pourriez obtenir des résultats similaires si vous remplaçiez la distribution de Cauchy par une distribution normale avec une variance convenablement grande.
mark999
bon point @ mark999, je vais modifier ma réponse pour résoudre ce problème.
Haitao Du
Est-il possible de comprendre à partir du PDF de la distribution de Cauchy qu'elle n'a aucun moyen, probablement en regardant ses grosses queues?
ks1322
Peut-être vous aviez quelque chose comme ça à l'esprit? stats.stackexchange.com/questions/90531/…
Sycorax dit de rétablir Monica le
2

La distribution de Cauchy est une forme déguisée d'une distribution très fondamentale, à savoir la distribution uniforme sur un cercle. Dans les formules, la probabilité infinitésimale est , où est la coordonnée angulaire. La probabilité (ou mesure) d'un arc est . Ceci est différent de la distribution uniforme , bien que les mesures soient en effet les mêmes pour les arcs ne contenant pas . Par exemple, sur l'arc de dans le sens antihoraire à , la moyenne de la distribution sur le cercle estθ A S 1 l e n g t h ( A ) / 2 π U ( - π , π ) π π - εdθ/2πθAS1length(A)/2πU(π,π)ππεπ U ( - π , π ) ε / 2 ππ+ε (=π+εmod2π)π. Mais la moyenne de la distribution uniforme sur l'union correspondante de deux intervalles disjoints, chacun de longueur , est nulle.U(π,π)ε/2π

Puisque la distribution sur le cercle est symétrique en rotation, il ne peut pas y avoir de moyenne, de médiane ou de mode sur le cercle. De même, les moments supérieurs, tels que la variance, ne peuvent pas avoir de sens. Cette distribution se produit naturellement dans de nombreux contextes. Par exemple, mon projet actuel comprend des images au microscope de tissus cancéreux. Les très nombreux objets de l'image ne sont pas symétriques et une "direction" peut être assignée à chacun. L'hypothèse nulle évidente est que ces directions sont uniformément réparties.

Pour masquer la simplicité, soit le cercle d'unité standard, et soit . Nous définissons en fonction de par projection stéréographique du cercle de sur l' axe des . La formule est . En différenciant, on trouve . La probabilité infinitésimale est donc , la forme habituelle de la distribution de Cauchy, et "Hey, hop!", La simplicité devient un casse-tête, nécessitant un traitement par les subtilités de la théorie de l'intégration. p=(0,1) S 1 xθpxS1p=(0,1)S1xθpxx=tan(θ/2)dθ/2=dx/(1+x2)dθπ(1+x2)

Dans , nous pouvons ignorer l'absence de (en d'autres termes, rétablir ) pour toute considération telle qu'un moment d'ordre moyen ou supérieur, car la probabilité de (sa mesure) est nul. Donc la non-existence de la moyenne et des moments supérieurs se répercute sur la ligne réelle. Cependant, il y a maintenant un point spécial, à savoir , qui correspond à sous projection stéréographique et cela devient la médiane et le mode de la distribution de Cauchy.pp S 1 p-p=(0,-1)0 RS1{p}ppS1pp=(0,1)0R

David Epstein
la source
2
La distribution de Cauchy a une médiane et un mode.
jkabrg
tout à fait raison. Je me suis un peu emporté. Mais l'argument de l'inexistence de la moyenne est correct. Je vais modifier ma réponse.
David Epstein
Pourquoi est-ce qu '"il ne peut pas y avoir de moyenne parce qu'il n'y en a pas sur le cercle"? Il manque beaucoup à votre argument. Je suppose que ce que vous entendez par étant la distribution uniforme "sur le cercle" est que et , mais alors donc je ne comprends pas de quoi vous parlez. X = tan ( θ / 2 ) E [ θ ] = 0θU(π,π)X=tan(θ/2)E[θ]=0
jkabrg
@jkabrg: J'espère que les nouvelles modifications rendront cela plus compréhensible
David Epstein