Pourquoi kurtosis d'une distribution normale est 3 au lieu de 0

18

Que veut dire l'affirmation selon laquelle le kurtosis d'une distribution normale est 3. Est-ce que cela signifie que sur la ligne horizontale, la valeur de 3 correspond à la probabilité de pic, c'est-à-dire que 3 est le mode du système?

Quand je regarde une courbe normale, il semble que le pic se produit au centre, alias à 0. Alors pourquoi le kurtosis n'est-il pas 0 et au lieu de 3?

Victor
la source
6
Comme l'écrit @Glen_b, le coefficient de "kurtosis" a été défini comme le quatrième moment standardisé: Il se trouve que pour la distribution normale, \ mu_4 = 3 \ sigma ^ 4 donc \ beta_2 = 3 . L' excès de kurtosis habituellement désigné par \ gamma_2 est \ gamma_2 = \ beta_2 (\ text {Normal}) -3 . Il faut faire attention car parfois les auteurs écrivent «kurtosis» et ils signifient «kurtosis excessif». μ4=3σ4β2=3
β2=E[(Xμ)4](E[(Xμ)2])2=μ4σ4
μ4=3σ4β2=3γ 2 = β 2 ( Normal ) - 3γ2γ2=β2(Normal)3
Alecos Papadopoulos
1
Re: Mon commentaire précédent. L'expression correcte pour le coefficient d'excès de kurtosis est
γ2=β2β2(Normal)=β23
Alecos Papadopoulos

Réponses:

29

Kurtosis n'est certainement pas l'endroit où se trouve le pic. Comme vous le dites, cela s'appelle déjà le mode.

Kurtosis est le quatrième moment normalisé: si Z=Xμσ , est une version standardisée de la variable que nous regardons, alors la population kurtosis est la quatrième puissance moyenne de cette variable standardisée; E(Z4) . L'échantillonnage kurtosis est corrélé en conséquence à la quatrième puissance moyenne d'un ensemble normalisé de valeurs d'échantillon (dans certains cas, il est mis à l'échelle par un facteur qui va à 1 dans les grands échantillons).

Comme vous le constatez, ce quatrième moment standardisé est 3 dans le cas d'une variable aléatoire normale. Comme le note Alecos dans les commentaires, certaines personnes définissent le kurtosis comme ; cela s'appelle parfois un excès de kurtosis (c'est aussi le quatrième cumulant). Lorsque vous voyez le mot «kurtosis», vous devez garder à l'esprit cette possibilité que différentes personnes utilisent le même mot pour désigner deux quantités différentes (mais étroitement liées).E(Z4)3

La kurtosis est généralement décrite soit comme un pic * (disons à quel point le pic est fortement incurvé - ce qui était vraisemblablement l'intention de choisir le mot "kurtosis"), soit par la lourdeur (souvent ce que les gens souhaitent utiliser pour mesurer), mais dans En fait, le quatrième moment standardisé habituel ne mesure pas tout à fait ces deux choses.

En effet, le premier volume de Kendall et Stuart donne des contre-exemples qui montrent qu'une kurtosis plus élevée n'est pas nécessairement associée à un pic plus élevé (dans une variable standardisée) ou à des queues plus grosses (de manière assez similaire que le troisième moment ne mesure pas tout à fait ce que beaucoup de gens pense que c'est le cas).

Cependant, dans de nombreuses situations, il y a une certaine tendance à être associée aux deux, dans la mesure où un pic plus élevé et une forte queue ont souvent tendance à être observés lorsque le kurtosis est plus élevé - nous devons simplement nous garder de penser que c'est nécessairement le cas.

La kurtosis et l'asymétrie sont fortement liées (la kurtosis doit être au moins 1 de plus que le carré de l'asymétrie; l'interprétation de la kurtosis est quelque peu plus facile lorsque la distribution est presque symétrique.

entrez la description de l'image ici

Darlington (1970) et Moors (1986) ont montré que la mesure du quatrième moment de la kurtosis est en fait la variabilité des «épaules» - , et Balanda et MacGillivray (1988) suggèrent de la considérer en termes vagues liés à ce sens (et envisager d'autres moyens de le mesurer). Si la distribution est étroitement concentrée autour de , alors le kurtosis est (nécessairement) petit, alors que si la distribution est étalée loin de (qui aura tendance à l'empiler simultanément au centre et déplacer la probabilité dans les queues afin de l'éloigner des épaules), le kurtosis au quatrième moment sera important.μ ± σ μ ± σμ±σμ±σμ±σ

De Carlo (1997) est un point de départ raisonnable (après des ressources plus basiques comme Wikipedia) pour lire sur le kurtosis.

Edit: Je vois des interrogations occasionnelles sur la question de savoir si un pic plus élevé (valeurs proches de 0) peut affecter la kurtosis. La réponse est oui, certainement. Que ce soit le cas est une conséquence du fait qu'il s'agit du quatrième moment d'une variable standardisée - pour augmenter le quatrième moment d'une variable standardisée, vous devez augmenter tout en maintenant constant . Cela signifie que le mouvement de probabilité plus loin dans la queue doit être accompagné d'un peu plus loin (à l'intérieur ); et vice versa - si vous mettez plus de poids au centre tout en maintenant la variance à 1, vous en mettez également dans la queue.E ( Z 2 ) ( - 1 , 1 )E(Z4)E(Z2) (1,1)

[NB tel que discuté dans les commentaires, ceci est incorrect en tant que déclaration générale; une déclaration quelque peu différente est requise ici.]

Cet effet de la variance maintenue constante est directement lié à la discussion de la kurtosis comme «variation sur les épaules» dans les articles de Darlington et Moors. Ce résultat n'est pas une notion ondulatoire, mais une simple équivalence mathématique - on ne peut pas en être autrement sans dénaturer le kurtosis.

Il est maintenant possible d'augmenter la probabilité à l'intérieur sans lever le pic. De même, il est possible d'augmenter la probabilité à l'extérieur sans nécessairement alourdir la queue distante (par un indice de queue typique, par exemple). Autrement dit, il est tout à fait possible d' augmenter la kurtosis tout en rendant la queue plus légère (par exemple, avoir une queue plus légère au-delà de 2 sds de chaque côté de la moyenne, par exemple).( - 1 , 1 )(1,1)(1,1)

[Mon inclusion de Kendall et Stuart dans les références est parce que leur discussion sur le kurtosis est également pertinente sur ce point.]

Alors, que pouvons-nous dire? La kurtosis est souvent associée à un pic plus élevé et à une queue plus lourde, sans avoir à se dessécher non plus. Certes, il est plus facile de soulever le kurtosis en jouant avec la queue (car il est possible de s'éloigner de plus de 1 sd) puis en ajustant le centre pour maintenir la variance constante, mais cela ne signifie pas que le pic n'a pas d'impact; c'est assurément le cas, et on peut manipuler le kurtosis en se concentrant sur lui à la place. Kurtosis est en grande partie mais pas seulement associé à la lourdeur de la queue - encore une fois, regardez la variation sur le résultat des épaules; si c'est quelque chose que Kurtosis regarde, dans un sens mathématique inévitable.

Les références

Balanda, KP et MacGillivray, HL (1988),
"Kurtosis: A critique review."
Statisticien américain 42 , 111-119.

Darlington, Richard B. (1970),
"Le kurtosis est-il vraiment un" pic? "."
Statisticien américain 24 , 19-22.

Moors, JJA (1986),
"Le sens de kurtosis: Darlington réexaminé."
Statisticien américain 40 , 283-284.

DeCarlo, LT (1997),
"Sur la signification et l'utilisation de kurtosis."
Psychol. Methods, 2 , 292-307.

Kendall, MG et A. Stuart,
The Advanced Theory of Statistics ,
vol. 1, 3e éd.
(les éditions plus récentes ont Stuart et Ord)

Glen_b -Reinstate Monica
la source
Fait amusant: en supposant que l'excès de kurtosis de la distribution normale "standard" est de la distribution de Laplace "standard" a un ex. kurtosis . (+1 évident pour la bonne réponse.)303
usεr11852 dit Réintégrer Monic
1
L'article de Westfall sur le kurtosis, intitulé Kurtosis as Peakedness, 1905-2014 RIP mérite d'être examiné. Il critique DeCarlo (parmi d'autres, même énumérés ci-dessus) pour avoir diffusé les connaissances sur la kurtosis en tant que mesure de pointe. Lien ici: ncbi.nlm.nih.gov/pmc/articles/PMC4321753
Lil'Lobster
1
@ Lil Je pense que Westfall exagère son cas. En se concentrant (presque) entièrement sur les queues lourdes, il est strictement incorrect. Alors que la kurtosis est associée assez fortement aux queues lourdes, la kurtosis n'est manifestement pas une queue lourde (les contre-exemples où les queues plus lourdes vont avec une kurtosis inférieure sont faciles à trouver, comme cela est couvert dans certaines des références ci-dessus; elles sont également faciles à faire). La kurtosis est moins fortement associée au pic mais il y a toujours une association; en insistant sur le fait qu'il ne s'agit pas d'un pic, il va trop loin dans ses critiques (des critiques similaires s'appliquent à ses propres conclusions). ... ctd
Glen_b -Reinstate Monica
1
Glen_b, vous et moi aimons les mathématiques. Si vous allez me critiquer pour avoir "surestimé mon cas", veuillez me donner votre argument mathématique qui relie le kurtosis de Pearson au "pic".
Peter Westfall
1
Gelen_b, votre commentaire "Cela signifie que le mouvement de probabilité plus loin dans la queue doit être accompagné d'un peu plus à l'intérieur de mu + - sigma et vice versa - si vous mettez plus de poids au centre tout en maintenant la variance à 1, vous mettez également un peu dans la queue "Est faux. Ça ne doit pas. Vous pouvez garder la probabilité (en fait la distribution entière) à l'intérieur de mu + - sigma constante et augmenter le kurtosis à l'infini dans certaines familles paramétriques de distributions. Voir ici: math.stackexchange.com/questions/167656/…
Peter Westfall
2

Voici une visualisation directe pour comprendre à quoi renvoie le nombre "3" en ce qui concerne le kurtosis de la distribution normale.

Soit distribué normalement, et soit . Soit . Considérons le graphique du pdf de , . Cette courbe est à droite de zéro et s'étend à l'infini, avec 0,999 quantile 117,2, mais une grande partie de la masse est proche de zéro; par exemple, 68% de moins que 1,0.XZ=(Xμ)/σV=Z4VpV(v)

La moyenne de cette distribution est kurtosis. Une façon courante de comprendre la moyenne est le «point d'équilibre» du graphique pdf. Si est normal, cette courbe s'équilibre à 3,0.XpV(v)

Cette représentation explique également pourquoi le kurtosis mesure la lourdeur des queues d'une distribution. Si n'est pas normal, la courbe "tombe vers la droite" lorsque le kurtosis est supérieur à 3,0, et donc dans ce cas, la densité de peut être considérée comme "plus lourde que la distribution normale". " De même, la courbe "tombe vers la gauche" lorsque le kurtosis est inférieur à 3,0, et dans ce cas, la densité de peut être considérée comme "plus légère que la distribution normale". XpV(v)XpV(v)X

On pense généralement qu'une kurtose plus élevée se réfère à plus de masse près du centre (c'est-à-dire plus de masse près de 0 dans le pdf ). Bien que cela soit vrai dans de nombreux cas, ce n'est évidemment pas la masse (éventuellement augmentée) proche de zéro qui fait que le graphique "tombe vers la droite" dans le cas de kurtosis élevé. C'est plutôt le levier de queue.pV(v)

De ce point de vue, l'interprétation essentiellement correcte du «poids de la queue» de la kurtosis pourrait être plus spécifiquement caractérisée comme un «effet de levier de la queue» pour éviter de confondre «l'augmentation du poids de la queue» avec «l'augmentation de la masse de la queue». Après tout, il est possible qu'une kurtosis plus élevée corresponde à moins de masse dans la queue, mais où cette masse diminuée occupe une position plus éloignée.

"Donnez-moi l'endroit où me tenir, et je déplacerai la terre." -Archimède

Peter Westfall
la source