Existe-t-il des exemples où le théorème de la limite centrale ne tient pas?

32

Wikipedia dit -

Dans la théorie des probabilités, le théorème central limite (CLT) établit que, dans la plupart des situations , lorsque des variables aléatoires indépendantes sont ajoutées, leur somme correctement normalisée tend vers une distribution normale (de manière informelle une "courbe en cloche"), même si les variables d'origine ne sont pas elles-mêmes. normalement distribué...

Quand il est dit "dans la plupart des situations", dans quelles situations le théorème de la limite centrale ne fonctionne-t-il pas?

Ryan McCauley
la source

Réponses:

33

Pour comprendre cela, vous devez d'abord énoncer une version du théorème de la limite centrale. Voici l'énoncé "typique" du théorème de la limite centrale:

CLT de Lindeberg – Lévy. Supposons que est une séquence de variables aléatoires iid avec et . Soit . Alors que approche de l’infini, les variables aléatoires convergent dans la distribution vers un normal c’est-à-direX1,X2,E[Xi]=μVar[Xi]=σ2<Sn:=X1++Xnnnn(Snμ)N(0,σ2)

n((1ni=1nXi)μ) d N(0,σ2).

Alors, en quoi cela diffère-t-il de la description informelle et quelles sont les lacunes? Il y a plusieurs différences entre votre description informelle et cette description, dont certaines ont été discutées dans d'autres réponses, mais pas complètement. Nous pouvons donc transformer cela en trois questions spécifiques:

  • Que se passe-t-il si les variables ne sont pas identiquement distribuées?
  • Et si les variables ont une variance infinie ou une moyenne infinie?
  • Quelle est l'importance de l'indépendance?

Prenant ceux-ci un à la fois,

Non répartis de manière identique , les meilleurs résultats généraux sont les versions de Lindeberg et de Lyaponov du théorème de la limite centrale. Fondamentalement, tant que les écarts-types ne grandissent pas trop, vous pouvez en tirer un théorème de la limite centrale décent.

Lyapunov CLT. [5] Supposons que est une séquence de variables aléatoires indépendantes, chacune avec une valeur attendue finie et une variance Définissez:μ i σ 2 s 2 n =n i = 1 σ 2 iX1,X2,μiσ2sn2=i=1nσi2

Si, pour certains , la condition de Lyapunov est satisfaite, puis une somme de distribution de converge vers une variable aléatoire normale standard, n allant à l'infini:δ>0Xi-µi/snlimn1sn2+δi=1nE[|Xiμi|2+δ]=0Xiμi/sn

1sni=1n(Xiμi) d N(0,1).

Des théorèmes de variance infinie similaires au théorème de la limite centrale existent pour les variables à variance infinie, mais les conditions sont nettement plus étroites que pour le théorème de la limite centrale habituel. Essentiellement, la queue de la distribution de probabilité doit être asymptotique à pour . Dans ce cas, les sommets mis à l'échelle appropriés convergent vers une distribution stable Levy-Alpha . 0 < α < 2|x|α10<α<2

Importance de l'indépendance Il existe de nombreux théorèmes limites centraux différents pour les séquences non indépendantes de . Ils sont tous hautement contextuels. Comme Batman le fait remarquer, il y en a un pour Martingales. Cette question est un domaine de recherche en cours, avec de nombreuses variantes selon le contexte d’intérêt spécifique. Cette question sur Math Exchange est un autre article lié à cette question.Xi

John
la source
2
J'ai supprimé un ">" errant d'une formule que je pense s'est glissée à cause du système de citation - n'hésitez pas à annuler ma modification si elle était intentionnelle!
Silverfish
Un tableau triangulaire CLT est probablement un CLT plus représentatif que celui indiqué. Pour ce qui est des non indépendants, les martingales CLT sont des cas assez couramment utilisés.
Batman
@ Batman, quel est un exemple d'un tableau triangulaire CLT? N'hésitez pas à éditer ma réponse, à l'ajouter. Je ne suis pas familier avec celui-là.
Jean
Quelque chose comme sec. 4.2.3 in personal.psu.edu/drh20/asymp/lectures/p93to100.pdf
Batman
1
"tant que les écarts-types ne croissent pas trop brutalement" ou rétrécissent (par exemple:σi2=σi12/2
2/2
21

Bien que je sois à peu près sûr d’avoir déjà répondu à cette question, en voici une autre:

Il existe plusieurs versions du théorème central limite, la plus générale étant que, étant donné des fonctions de densité de probabilité arbitraires, la somme des variables sera distribuée normalement avec une valeur moyenne égale à la somme des valeurs moyennes, ainsi que la variance étant la somme. des variances individuelles.

Une contrainte très importante et pertinente est que la moyenne et la variance des fichiers PDF donnés doivent exister et être finies.

Donc, prenez n'importe quel pdf sans valeur moyenne ni variance - et le théorème de la limite centrale ne sera plus valable. Alors prenons une distribution lorentzienne par exemple.

chérubin
la source
+1 Ou prendre une distribution avec une variance infinie, comme la distribution d'une marche aléatoire.
Alexis
2
@Alexis - En supposant que vous envisagiez une marche aléatoire à un point fini, j'aurais pensé que cela aurait une variance finie, soit la somme de pas de pas avec chacun une variance finien
Henry,
1
@ Henry: Nope, je ne suppose pas à un moment donné, mais la variance de la distribution de toutes les marches aléatoires possibles de longueurs infinies.
Alexis
1
@Alexis Si chaque pas de la marche aléatoire vaut ou iid avec une probabilité égale et que les positions sont le théorème de la limite centrale implique correctement que, comme vous avez la distribution de convergeant dans la distribution vers + 1 - 1 Y n = Σ n 1 X i n Xi+11Yn=1nXin N(0,1)n(1nYn)=YnnN(0,1)
Henry
1
@Alexis N'importe pas pour le CLT, car chaque distribution individuelle a toujours une variance finie.
Cubes
15

Non, CLT est toujours valable lorsque ses hypothèses sont vérifiées. Les qualifications telles que "dans la plupart des situations" sont des références informelles aux conditions dans lesquelles le CLT devrait être appliqué.

Par exemple, une combinaison linéaire de variables indépendantes de la distribution de Cauchy ne correspondra pas à une variable distribuée normale . Une des raisons est que la variance n'est pas définie pour la distribution de Cauchy , alors que CLT pose certaines conditions à la variance, par exemple qu'elle doit être finie. Une implication intéressante est que, puisque les simulations de Monte Carlo sont motivées par le CLT, vous devez être prudent avec les simulations de Monte Carlo lorsque vous utilisez des distributions à queue épaisse, telles que Cauchy.

Notez qu'il existe une version généralisée de CLT. Cela fonctionne pour des variances infinies ou non définies, telles que la distribution de Cauchy. Contrairement à beaucoup de distributions qui se comportent bien, la somme correctement calculée des nombres de Cauchy reste celle de Cauchy. Cela ne converge pas vers le gaussien.

En passant, non seulement la distribution gaussienne, mais de nombreuses autres distributions ont des PDF en forme de cloche, par exemple Student t. C'est pourquoi la description que vous avez citée est assez libérale et imprécise, peut-être délibérément.

Aksakal
la source
7

Voici une illustration de la réponse d'un chérubin, un histogramme de 1e5 est tiré de la moyenne des échantillons mis à l'échelle (par ) des distributions t à deux degrés de liberté, de sorte que la variance n'existe pas .n

Si le CLT s’applique, l’histogramme pour aussi grand que devrait ressembler à la densité d’une distribution normale standard (qui, par exemple, a une densité de à son maximum), ce qui n'est évidemment pas le cas.n = 1000 1 / nn=10001/2π0.4

entrez la description de l'image ici

library(MASS)
n <- 1000
samples.from.t <- replicate(1e5, sqrt(n)*mean(rt(n, df = 2)))
truehist(samples.from.t, xlim = c(-10,10), col="salmon")
Christoph Hanck
la source
3
Vous devez faire un peu attention ici, comme si vous faisiez ceci avec une distribution avec degrés de liberté, le théorème de la limite centrale s'appliquerait, mais votre graphique n'aurait pas une densité de pic autour de mais plutôt autour de parce que la variance initiale ne serait pas3 0.4 1t30.4116π0.231
Henry
C'est un bon point, on pourrait normaliser le moyen en obtenant sd(x)quelque chose qui, si le CLT fonctionne, converge selon le théorème de Slutzky vers une variable de N (0,1). Je voulais garder l’exemple simple, mais vous avez évidemment raison.
Christoph Hanck
6

Un cas simple où le CLT ne peut pas tenir pour des raisons très pratiques, est lorsque la séquence de variables aléatoires s'approche de sa limite de probabilité strictement d'un côté . Cela se produit par exemple dans les estimateurs qui estiment quelque chose qui se trouve sur une frontière.

L’exemple type ici est peut-être l’estimation de dans un échantillon d’iid Uniforms . L'estimateur de vraisemblance maximum sera la statistique d'ordre maximum, et il s'approchera nécessairement de uniquement d'en bas: pensant naïvement, puisque sa limite de probabilité sera , l'estimateur ne peut pas avoir une distribution "autour de" - et le CLT est disparu.U ( 0 , θ ) θ θ θθU(0,θ)θθθ

L'estimateur correctement mis à l'échelle a une distribution limite - mais pas de la "variété CLT".

Alecos Papadopoulos
la source
3

Vous pouvez trouver une solution rapide ici.

Des exceptions au théorème de la limite centrale apparaissent

  1. Quand il y a plusieurs maxima de la même hauteur, et
  2. Où la dérivée seconde disparaît au maximum.

Il existe certaines autres exceptions qui sont décrites dans la réponse de @cherub.


La même question a déjà été posée sur math.stackexchange . Vous pouvez vérifier les réponses ici.

Ferdi
la source
5
Par "maxima", voulez-vous dire modes? Être bimodal n'a rien à voir avec le fait de ne pas satisfaire le CLT.
Accumulation
@ Accumulation: le libellé ici est déroutant car il fait en fait référence à la FGP d'une va discrèteM(z)=n=P(X=n)zn
Alex R.
@AlexR. La réponse n'a pas de sens du tout sans avoir lu le lien, et elle est loin d'être claire même avec le lien. Je pense que le vote négatif est encore pire qu'une réponse en lien seulement.
Accumulation