Le rôle de la variance dans le théorème central limite

10

J'ai lu quelque part que la raison pour laquelle nous ajustons les différences au lieu de prendre des valeurs absolues lors du calcul de la variance est que la variance définie de la manière habituelle, avec des carrés dans le proposeur, joue un rôle unique dans le théorème de la limite centrale.

Eh bien, quel est exactement le rôle de la variance dans le CLT? Je n'ai pas pu en savoir plus à ce sujet, ni le comprendre correctement.

Nous pourrions également nous demander ce qui nous fait penser que la variance est une mesure de l'étendue d'un ensemble de nombres. Je pourrais définir d'autres quantités, similaires à la variance, et vous convaincre qu'elles mesurent la propagation des nombres. Pour que cela se produise, vous devez indiquer ce que l'on entend exactement par répartition des nombres, quel comportement vous attendez de la mesure de la propagation, etc. Il n'y a pas de définition formelle de la propagation, nous pouvons donc traiter la variance comme la définition. Cependant, pour une raison quelconque, la variance est considérée comme «la meilleure» mesure de l'écart.

user4205580
la source
J'ai spécifiquement tenté de répondre à cette question dans ma réponse sur stats.stackexchange.com/a/3904/919 .
whuber
1
Maintenant, je me souviens avoir déjà vu votre réponse, mais le problème est que je ne trouve pas vraiment le mot «variance» dans votre réponse. Quelle partie explique exactement le problème? Je devrais peut-être le relire.
user4205580
3
Recherchez «SD», qui équivaut à la variance, et le terme «facteur d'échelle». Le point (plutôt profond) ici est que la variance elle-même n'est pas un choix unique: pour une distribution donnée, vous pouvez choisir (presque) n'importe quelle mesure de propagation que vous aimez! En supposant que cette mesure converge vers la propagation de la distribution sous-jacente, ce qui importe vraiment, c'est que lorsque vous standardisez la somme (ou la moyenne) des échantillons iid de cette distribution, vous devez redimensionner sa propagation par un facteur qui est asymptotiquement . Ce faisant, vous obtiendrez une distribution normale limite. nn
whuber

Réponses:

8

La déclaration classique du théorème central limite (CLT) considère une séquence de variables aléatoires indépendantes, identiquement distribuées avec distribution commune . Cette séquence modélise la situation à laquelle nous sommes confrontés lors de la conception d'un programme ou d'une expérience d'échantillonnage: si nous pouvons obtenir observations indépendantes du même phénomène sous-jacent, alors la collection finie modélise les données anticipées. Permettre à la séquence d'être infinie est un moyen pratique de considérer des tailles d'échantillons arbitrairement grandes.X1,X2,,Xn,FnX1,X2,,Xn

Diverses lois en grand nombre affirment que la moyenne

m(X1,X2,,Xn)=1n(X1+X2++Xn)

s'approchera de près de l'espérance de , , avec une probabilité élevée, à condition que ait réellement une espérance. (Toutes les distributions ne le font pas.) Cela implique que l'écart (qui, en fonction de ces variables aléatoires, est également une variable aléatoire) aura tendance à obtenir plus petit lorsque augmente. Le CLT ajoute à cela d'une manière beaucoup plus spécifique: il déclare (sous certaines conditions, que je discuterai ci-dessous) que si nous redimensionnons cet écart par , il aura une fonction de distribution qui se rapproche de quelque zéro- fonction de distribution normale moyenne en tant queFμ(F)Fm(X1,X2,,Xn)μ(F)nnnFnngrandit. (Ma réponse sur https://stats.stackexchange.com/a/3904 tente d'expliquer pourquoi c'est le cas et pourquoi le facteur est le bon à utiliser.)n

Ce n'est pas une déclaration standard du CLT. Connectons-le avec celui habituel. Cette distribution normale limite moyenne nulle sera complètement déterminée par un deuxième paramètre, qui est généralement choisi pour être une mesure de sa propagation (naturellement!), Comme sa variance ou son écart-type. Soit sa variance. Assurément , il doit avoir une certaine relation à une propriété similaire de . Pour découvrir ce que cela pourrait être, laissez avoir une variance - qui pourrait être infinie, soit dit en passant. Quoi qu'il en soit, les étant indépendants, nous calculons facilement la variance des moyennes:σ2FFτ2Xi

Var(m(X1,X2,,Xn))=Var(1n(X1+X2++Xn))=(1n)2(Var(X1)+Var(X2)++Var(Xn))=(1n)2(τ2+τ2++τ2)=τ2n.

Par conséquent, la variance des résidus standardisés est égale à : elle est constante. La variance de la distribution normale limite doit donc être elle-même. (Cela montre immédiatement que le théorème ne peut tenir que lorsque est fini: c'est l'hypothèse supplémentaire que j'ai passée en revue plus tôt.)τ2/n×(n)2=τ2τ2τ2

(Si nous avions choisi une autre mesure de la propagation de nous pourrions toujours réussir à la connecter à , mais nous n'aurions pas trouvé que la mesure correspondante de la propagation de l'écart moyen normalisé est constante pour tout , qui est une belle - quoique inessentielle - simplification.)Fσ2n

Si nous l'avions souhaité, nous aurions pu uniformiser les écarts moyens tout au long en les divisant par ainsi qu'en les multipliant par . Cela aurait garanti que la distribution limite est normale normale, avec variance unitaire. Que vous choisissiez ou non de standardiser by est vraiment une question de goût: c'est le même théorème et la même conclusion à la fin. Ce qui importait, c'était la multiplication par .τnτn

Notez que vous pouvez multiplier les écarts par un autre facteur que . Vous pouvez utiliser , ou , ou toute autre chose qui se comporte asymptotiquement comme . Toute autre forme asymptotique réduirait à la limite à ou le ferait exploser à . Cette observation affine notre appréciation du CLT en montrant dans quelle mesure il est flexible quant à la manière dont la normalisation est effectuée. Nous pourrions alors souhaiter énoncer le CLT de la manière suivante.nn+exp(-n)n1/2+1/nnσ20

Pourvu que l'écart entre la moyenne d'une séquence de variables IID (avec une distribution commune ) et l'espérance sous-jacente soit mis à l'échelle asymptotiquement par , cet écart mis à l'échelle aura une distribution limite normale moyenne moyenne dont la variance est celle de .FnF

Même si les écarts sont impliqués dans la déclaration, ils apparaissent seulement parce qu'ils sont nécessaires pour caractériser la limitation de la distribution normale et se rapportent sa propagation à celle de . Ce n'est qu'un aspect accessoire. Cela n'a rien à voir avec la variance étant "la meilleure" dans tous les sens. Le nœud du problème est la mise à l'échelle asymptotique par .Fn

whuber
la source
5

La variance n'est PAS essentielle aux théorèmes de limite centrale. Il est essentiel au iid du débutant de la variété de jardin, Central Limit Theorem, celui que la plupart des gens connaissent et aiment, utilisent et abusent.

Il n'y a pas "le" théorème de limite centrale, il existe de nombreux théorèmes de limite centrale:

Théorème central de limite du débutant de la variété de jardin. Même ici, un choix judicieux de constante de normalisation (donc une variante avancée du CLT du débutant) peut permettre de prouver les théorèmes de limite centrale pour certaines variables aléatoires ayant une variance infinie (voir Feller Vol. II http://www.amazon.com/Introduction -Probability-Theory-Applications-Edition / dp / 0471257095 p. 260).

Le réseau triangulaire Théorème de limite centrale de Lindeberg-Feller. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .

Le monde sauvage de n'importe quoi va tout dans les théorèmes de limite centrale dépendant de la vue pour lesquels la variance n'a même pas besoin d'exister. J'ai prouvé une fois un théorème de limite centrale pour lequel non seulement la variance n'existait pas, mais la moyenne non plus, et en fait même pas un moment 1 - epsilon pour epsilon arbitrairement petit positif. C'était une preuve velue, car elle a "à peine" convergé, et cela très lentement. Asymptotiquement, il a convergé vers un Normal, en réalité, un échantillon de millions de termes serait nécessaire pour que le Normal soit une bonne approximation.

Mark L. Stone
la source
Le CLT que vous avez prouvé est-il accessible quelque part sur le Web? Cela semble très intéressant et j'aimerais le lire.
Alecos Papadopoulos
2
C'était un devoir à la maison dans un cours de probabilité théorique il y a près de 35 ans, perdu au temps du sable. Eh bien, cela pourrait être dans une de mes boîtes quelque part, mais je ne suis pas susceptible de le déterrer de si tôt. J'étais à peine assez intelligent pour le prouver (avec de nombreuses heures de dur labeur), pas assez intelligent pour l'avoir formulé. Il existe une infinité de théorèmes de limite centrale différents, la normalisation est la clé.
Mark L. Stone
1

La meilleure mesure de propagation dépend de la situation. La variance est une mesure de l'écart qui est un paramètre de la distribution normale. Donc, si vous modélisez vos données avec une distribution nornale, la moyenne (arithmétique) et la variance empirique sont les meilleurs estimateurs (ils sont "suffisants") des paramètres de cette distribution normale. Cela donne également le lien avec le théorème de la limite centrale, car il s'agit d'une limite normale, c'est-à-dire que la limite est une distribution normale. Donc, si vous avez suffisamment d'observations pour que le théorème de la limite centrale soit pertinent, vous pouvez à nouveau utiliser la distribution normale, et la variance empirique est la description naturelle de la variabilité, car elle est liée à la distribution normale.

Sans ce lien avec la distribution normale, il n'y a aucun sens dans lequel la varoiance est la meilleure ou même un descripteur natuel de la variabilité.

kjetil b halvorsen
la source
On ne sait pas pourquoi la théorie des «meilleurs» estimateurs (dans tous les sens du «meilleur») devrait avoir un lien avec le théorème central limite. Si l'on devait utiliser une fonction de perte non quadratique, par exemple, la moyenne et la variance pourraient ne pas être les "meilleurs" estimateurs des paramètres d'une distribution normale - à la place, la médiane et l'IQR pourraient être les meilleurs.
whuber
1

Répondre à la deuxième question uniquement:

Je suppose que la variance a été la mesure de dispersion de choix pour la plupart des statisticiens principalement pour des raisons historiques et ensuite à cause de l'inertie pour la plupart des praticiens non statisticiens.

Bien que je ne puisse pas citer par cœur une référence spécifique avec une définition rigoureuse de la propagation, je peux offrir une heuristique pour sa caractérisation mathématique: moments centraux (c.-à-d. E[(X-μ)k]) sont très utiles pour peser les écarts par rapport au centre de distribution et leurs probabilités / fréquences, mais uniquement si k est entier et pair.

Pourquoi? Parce que de cette façon, les écarts au-dessous du centre (négatifs) résumeront avec les écarts au-dessus du centre (positifs), au lieu de les annuler partiellement, comme la moyenne, par exemple. Comme vous pouvez le penser, les moments centraux absolus (c.-à-d.E(|X-μ|k)) peut également faire ce travail et, plus encore, pour tout k>0 (ok, les deux moments sont égaux si k est même).

Ainsi, une grande quantité de petites déviations (à la fois positives et négatives) avec peu de grandes déviations sont des caractéristiques de faible dispersion, qui produiront un moment central même relativement petit. De nombreux écarts importants donneront un moment central relativement important.

Rappelez-vous quand j'ai dit sur les raisons historiques ci-dessus? Avant que la puissance de calcul ne devienne bon marché et disponible, il fallait compter uniquement sur des compétences mathématiques et analytiques pour faire face au développement de théories statistiques.

Les problèmes impliquant des moments centraux étaient plus faciles à résoudre que ceux impliquant des moments centraux absolus. Par exemple, les problèmes d'optimisation impliquant des moments centraux (par exemple, les moindres carrés) nécessitent uniquement un calcul, tandis que l'optimisation impliquant des moments centraux absolus aveck impair (pour k=1 vous obtenez un problème simplex), qui ne peut pas être résolu avec le calcul seul.

Marcelo Ventura
la source