J'ai lu quelque part que la raison pour laquelle nous ajustons les différences au lieu de prendre des valeurs absolues lors du calcul de la variance est que la variance définie de la manière habituelle, avec des carrés dans le proposeur, joue un rôle unique dans le théorème de la limite centrale.
Eh bien, quel est exactement le rôle de la variance dans le CLT? Je n'ai pas pu en savoir plus à ce sujet, ni le comprendre correctement.
Nous pourrions également nous demander ce qui nous fait penser que la variance est une mesure de l'étendue d'un ensemble de nombres. Je pourrais définir d'autres quantités, similaires à la variance, et vous convaincre qu'elles mesurent la propagation des nombres. Pour que cela se produise, vous devez indiquer ce que l'on entend exactement par répartition des nombres, quel comportement vous attendez de la mesure de la propagation, etc. Il n'y a pas de définition formelle de la propagation, nous pouvons donc traiter la variance comme la définition. Cependant, pour une raison quelconque, la variance est considérée comme «la meilleure» mesure de l'écart.
la source
Réponses:
La déclaration classique du théorème central limite (CLT) considère une séquence de variables aléatoires indépendantes, identiquement distribuées avec distribution commune . Cette séquence modélise la situation à laquelle nous sommes confrontés lors de la conception d'un programme ou d'une expérience d'échantillonnage: si nous pouvons obtenir observations indépendantes du même phénomène sous-jacent, alors la collection finie modélise les données anticipées. Permettre à la séquence d'être infinie est un moyen pratique de considérer des tailles d'échantillons arbitrairement grandes.X1,X2,…,Xn,… F n X1,X2,…,Xn
Diverses lois en grand nombre affirment que la moyenne
s'approchera de près de l'espérance de , , avec une probabilité élevée, à condition que ait réellement une espérance. (Toutes les distributions ne le font pas.) Cela implique que l'écart (qui, en fonction de ces variables aléatoires, est également une variable aléatoire) aura tendance à obtenir plus petit lorsque augmente. Le CLT ajoute à cela d'une manière beaucoup plus spécifique: il déclare (sous certaines conditions, que je discuterai ci-dessous) que si nous redimensionnons cet écart par , il aura une fonction de distribution qui se rapproche de quelque zéro- fonction de distribution normale moyenne en tant queF μ(F) F m(X1,X2,…,Xn)−μ(F) n n n−−√ Fn n grandit. (Ma réponse sur https://stats.stackexchange.com/a/3904 tente d'expliquer pourquoi c'est le cas et pourquoi le facteur est le bon à utiliser.)n−−√
Ce n'est pas une déclaration standard du CLT. Connectons-le avec celui habituel. Cette distribution normale limite moyenne nulle sera complètement déterminée par un deuxième paramètre, qui est généralement choisi pour être une mesure de sa propagation (naturellement!), Comme sa variance ou son écart-type. Soit sa variance. Assurément , il doit avoir une certaine relation à une propriété similaire de . Pour découvrir ce que cela pourrait être, laissez avoir une variance - qui pourrait être infinie, soit dit en passant. Quoi qu'il en soit, les étant indépendants, nous calculons facilement la variance des moyennes:σ2 F F τ2 Xi
Par conséquent, la variance des résidus standardisés est égale à : elle est constante. La variance de la distribution normale limite doit donc être elle-même. (Cela montre immédiatement que le théorème ne peut tenir que lorsque est fini: c'est l'hypothèse supplémentaire que j'ai passée en revue plus tôt.)τ2/ n × (n--√)2=τ2 τ2 τ2
(Si nous avions choisi une autre mesure de la propagation de nous pourrions toujours réussir à la connecter à , mais nous n'aurions pas trouvé que la mesure correspondante de la propagation de l'écart moyen normalisé est constante pour tout , qui est une belle - quoique inessentielle - simplification.)F σ2 n
Si nous l'avions souhaité, nous aurions pu uniformiser les écarts moyens tout au long en les divisant par ainsi qu'en les multipliant par . Cela aurait garanti que la distribution limite est normale normale, avec variance unitaire. Que vous choisissiez ou non de standardiser by est vraiment une question de goût: c'est le même théorème et la même conclusion à la fin. Ce qui importait, c'était la multiplication par .τ n--√ τ n--√
Notez que vous pouvez multiplier les écarts par un autre facteur que . Vous pouvez utiliser , ou , ou toute autre chose qui se comporte asymptotiquement comme . Toute autre forme asymptotique réduirait à la limite à ou le ferait exploser à . Cette observation affine notre appréciation du CLT en montrant dans quelle mesure il est flexible quant à la manière dont la normalisation est effectuée. Nous pourrions alors souhaiter énoncer le CLT de la manière suivante.n--√ n--√+ exp( - n ) n1 / 2 + 1 / n n--√ σ2 0 ∞
Même si les écarts sont impliqués dans la déclaration, ils apparaissent seulement parce qu'ils sont nécessaires pour caractériser la limitation de la distribution normale et se rapportent sa propagation à celle de . Ce n'est qu'un aspect accessoire. Cela n'a rien à voir avec la variance étant "la meilleure" dans tous les sens. Le nœud du problème est la mise à l'échelle asymptotique par .F n--√
la source
La variance n'est PAS essentielle aux théorèmes de limite centrale. Il est essentiel au iid du débutant de la variété de jardin, Central Limit Theorem, celui que la plupart des gens connaissent et aiment, utilisent et abusent.
Il n'y a pas "le" théorème de limite centrale, il existe de nombreux théorèmes de limite centrale:
Théorème central de limite du débutant de la variété de jardin. Même ici, un choix judicieux de constante de normalisation (donc une variante avancée du CLT du débutant) peut permettre de prouver les théorèmes de limite centrale pour certaines variables aléatoires ayant une variance infinie (voir Feller Vol. II http://www.amazon.com/Introduction -Probability-Theory-Applications-Edition / dp / 0471257095 p. 260).
Le réseau triangulaire Théorème de limite centrale de Lindeberg-Feller. http://sites.stat.psu.edu/~dhunter/asymp/lectures/p93to100.pdf
https://en.wikipedia.org/wiki/Central_limit_theorem .
Le monde sauvage de n'importe quoi va tout dans les théorèmes de limite centrale dépendant de la vue pour lesquels la variance n'a même pas besoin d'exister. J'ai prouvé une fois un théorème de limite centrale pour lequel non seulement la variance n'existait pas, mais la moyenne non plus, et en fait même pas un moment 1 - epsilon pour epsilon arbitrairement petit positif. C'était une preuve velue, car elle a "à peine" convergé, et cela très lentement. Asymptotiquement, il a convergé vers un Normal, en réalité, un échantillon de millions de termes serait nécessaire pour que le Normal soit une bonne approximation.
la source
La meilleure mesure de propagation dépend de la situation. La variance est une mesure de l'écart qui est un paramètre de la distribution normale. Donc, si vous modélisez vos données avec une distribution nornale, la moyenne (arithmétique) et la variance empirique sont les meilleurs estimateurs (ils sont "suffisants") des paramètres de cette distribution normale. Cela donne également le lien avec le théorème de la limite centrale, car il s'agit d'une limite normale, c'est-à-dire que la limite est une distribution normale. Donc, si vous avez suffisamment d'observations pour que le théorème de la limite centrale soit pertinent, vous pouvez à nouveau utiliser la distribution normale, et la variance empirique est la description naturelle de la variabilité, car elle est liée à la distribution normale.
Sans ce lien avec la distribution normale, il n'y a aucun sens dans lequel la varoiance est la meilleure ou même un descripteur natuel de la variabilité.
la source
Répondre à la deuxième question uniquement:
Je suppose que la variance a été la mesure de dispersion de choix pour la plupart des statisticiens principalement pour des raisons historiques et ensuite à cause de l'inertie pour la plupart des praticiens non statisticiens.
Bien que je ne puisse pas citer par cœur une référence spécifique avec une définition rigoureuse de la propagation, je peux offrir une heuristique pour sa caractérisation mathématique: moments centraux (c.-à-d.E[ ( X- μ)k] ) sont très utiles pour peser les écarts par rapport au centre de distribution et leurs probabilités / fréquences, mais uniquement si k est entier et pair.
Pourquoi? Parce que de cette façon, les écarts au-dessous du centre (négatifs) résumeront avec les écarts au-dessus du centre (positifs), au lieu de les annuler partiellement, comme la moyenne, par exemple. Comme vous pouvez le penser, les moments centraux absolus (c.-à-d.E( | X- μ|k) ) peut également faire ce travail et, plus encore, pour tout k > 0 (ok, les deux moments sont égaux si k est même).
Ainsi, une grande quantité de petites déviations (à la fois positives et négatives) avec peu de grandes déviations sont des caractéristiques de faible dispersion, qui produiront un moment central même relativement petit. De nombreux écarts importants donneront un moment central relativement important.
Rappelez-vous quand j'ai dit sur les raisons historiques ci-dessus? Avant que la puissance de calcul ne devienne bon marché et disponible, il fallait compter uniquement sur des compétences mathématiques et analytiques pour faire face au développement de théories statistiques.
Les problèmes impliquant des moments centraux étaient plus faciles à résoudre que ceux impliquant des moments centraux absolus. Par exemple, les problèmes d'optimisation impliquant des moments centraux (par exemple, les moindres carrés) nécessitent uniquement un calcul, tandis que l'optimisation impliquant des moments centraux absolus aveck impair (pour k = 1 vous obtenez un problème simplex), qui ne peut pas être résolu avec le calcul seul.
la source