Différences dans la définition du kurtosis et leur interprétation

10

J'ai récemment réalisé qu'il existe des différences dans les valeurs de kurtosis fournies par SPSS et Stata.

Voir http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm

Je crois comprendre que leur interprétation serait donc différente.

Des conseils sur la façon de gérer cela?

Cesare Camestre
la source
Je connaissais les deux premières formules et il est assez facile de les distinguer; Je n'avais pas vu cette troisième formule.
Peter Flom - Réintègre Monica

Réponses:

9

Les trois formules

Trois formules pour le kurtosis sont généralement utilisées par différents programmes. Je vais énoncer les trois formules ( , et ) et les programmes qui les utilisent. G 2 b 2g2G2b2

La première formule et la définition typique utilisée dans de nombreux manuels sont (c'est la deuxième formule dans le lien que vous avez fourni) où désigne les exemples de moments : mr

g2=m4m22
mr

mr=1n(xix¯)r

Parfois, un terme de correction de -3 est ajouté à cette formule afin qu'une distribution normale ait un kurtosis de 0. La formule de kurtosis avec un terme de -3 est appelée kurtosis en excès (la première formule dans le lien que vous avez fourni).

La deuxième formule est (utilisée par SAS, SPSS et MS Excel; c'est la troisième formule dans le lien que vous avez fourni)

G2=k4k22=n1(n2)(n3)[(n+1)g2+6]

où est le kurtosis tel que défini dans la première formule.g2

La troisième formule est (utilisée par MINITAB et BMDP)

b2=m4s43=(n1n)2m4m223

où est la variance de l'échantillon sans biais :s2

s2=1n1(xix¯)2

Dans Rle kurtosis peut être calculé en utilisant la kurtosisfonction du e1071package (lien ici ). L'option typedétermine laquelle des trois formules est utilisée pour les calculs (1 = , 2 = , 3 = ).g23G2b2

Ces deux articles discutent et comparent les trois formules: première , seconde .

Résumé des différences entre les formules

  1. En utilisant , une distribution normale a une valeur de kurtosis de 3 alors que dans les formules impliquant un terme de correction -3 (c'est-à-dire et ), une distribution normale a un kurtosis en excès de 0.g2G2b2
  2. G2 est la seule formule donnant des estimations non biaisées pour des échantillons normaux (c'est-à-dire que l'espérance de sous normalité est nulle, ou ).G2E(G2)=0
  3. Pour les grands échantillons, la différence entre les formules est négligeable et le choix importe peu.
  4. Pour les petits échantillons d'une distribution normale, la relation des trois formules en termes d' erreurs quadratiques moyennes (MSE) est: . Donc a le plus petit et le plus grand (bien que seul soit pas biaisé). En effet, présente la plus grande variance des trois formules: .mse(g2)<mse(b2)<mse(G2)g2G2G2G2Var(b2)<Var(g2)<Var(G2)
  5. Pour les petits échantillons de distributions non normales , la relation des trois formules en termes de biais est: . En termes d'erreurs quadratiques moyennes: . Donc a la plus petite erreur quadratique moyenne et le plus petit biais des trois formules. a l'erreur quadratique moyenne et le biais les plus importants.bias(G2)<bias(g2)<bias(b2)mse(G2)<mse(g2)<mse(b2)G2b2
  6. Pour les grands échantillons ( ) de distributions non normalesn>200 , la relation des trois formules en termes de biais est: . En termes d'erreurs quadratiques moyennes: .mse ( b 2 ) < mse ( g 2 ) < mse ( G 2 )bias(G2)<bias(g2)<bias(b2)mse(b2)<mse(g2)<mse(G2)

Voir aussi la page Wikipedia et la page MathWorld sur le kurtosis.

COOLSerdash
la source
J'appellerais cela une belle et claire interprétation de "l'histoire habituelle". J'ajouterais que les termes leptokurtic, mesokurtic, platykurtic ne sont que des bagages que nous devrions laisser au XXe siècle: nous avons une mesure à laquelle nous devons réfléchir quantitativement. Plus sérieusement, l'interprétation culminant par rapport au sommet plat ne rend tout simplement pas justice à la grande variation des formes possibles de distributions, même celles qui sont toutes symétriques. Enfin, le biais dans la pratique ne mord pas beaucoup sauf si vous jouez avec de petits échantillons inappropriés, mais la variance le fait vraiment!
Nick Cox
Pourriez-vous s'il vous plaît clarifier l'élément récapitulatif # 2? Évidemment, est un exemple de statistique, mais il n'est évidemment pas identique pour tout, mais pour une distribution dégénérée. Peut-être vouliez-vous dire que son attente est nulle? (BTW, qu'est-ce que " " dans sa formule? peut-être?)γ 2 g 2G2γ2g2
whuber
G2γ2g2
G2=0
7

Le lien en question parle également de SAS. Mais en fait, rien dans cette question, à l'exception peut-être de l'objectif de l'affiche, ne la limite à ces programmes nommés particuliers.

Je pense que nous devons séparer ici des types de problèmes très différents, dont certains sont illusoires et d'autres authentiques.

  1. Certains programmes soustraient et certains ne soustraient pas 3 de sorte que la mesure de kurtosis rapportée soit 3 pour les variables gaussiennes / normales sans soustraction et 0 avec soustraction. J'ai vu des gens perplexes par cela, souvent lorsque la différence se révélait être de 2 999 et pas exactement de 3.

  2. n

Donc, il y a un petit problème de formules, le n ° 1 étant beaucoup plus important que le n ° 2, mais les deux sont mineurs s'ils sont compris. Le conseil est clairement de consulter la documentation du programme que vous utilisez, et s'il n'y a pas de documentation expliquant ce genre de détails, d'abandonner ce programme immédiatement. Mais un cas de test aussi simple qu'une variable (1, 2) donne un kurtosis de 1 ou 4 selon le seul # 1 (sans facteur de correction).

La question porte alors sur l'interprétation, mais c'est une question beaucoup plus ouverte et controversée.

Avant de passer au domaine principal de discussion, une difficulté souvent signalée mais peu connue est que les estimations de kurtosis sont limitées en fonction de la taille de l'échantillon. J'ai écrit une critique à Cox, NJ 2010. Les limites de l'asymétrie et du kurtosis de l'échantillon. Journal Stata 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204

Résumé: L'asymétrie et le kurtosis de l'échantillon sont limités par les fonctions de la taille de l'échantillon. Les limites, ou approximations de celles-ci, ont été redécouvertes à plusieurs reprises au cours des dernières décennies, mais semblent néanmoins rester mal connues. Les limites confèrent un biais à l'estimation et, dans les cas extrêmes, impliquent qu'aucun échantillon ne pourrait témoigner avec exactitude de sa distribution parente. Les principaux résultats sont expliqués dans un examen du didacticiel, et il est montré comment Stata et Mata peuvent être utilisés pour confirmer et explorer leurs conséquences.

Passons maintenant à ce qui est communément considéré comme le nœud du problème:

Beaucoup de gens traduisent le kurtosis comme un pic, mais d'autres soulignent qu'il sert souvent de mesure du poids de la queue. En fait, les deux interprétations pourraient toutes deux être un libellé raisonnable pour certaines distributions. Il est presque inévitable qu'il n'y ait pas d'interprétation verbale simple de kurtosis: notre langage n'est pas assez riche en comparaisons de sommes de quatrième puissances de déviations par rapport à la moyenne et de sommes de secondes puissances de même.

Dans un classique mineur et souvent négligé, Irving Kaplansky (1945a) a attiré l'attention sur quatre exemples de distributions avec différentes valeurs de kurtosis et de comportement non cohérent avec certaines discussions sur le kurtosis.

xc=π

(1)   (1/3c)(9/4+x4)exp(x2)

(2)   (3/(c8))exp(x2/2)(1/6c)(9/4+x4)exp(x2)

(3)   (1/6c)(exp(x2/4)+4exp(x2))

(4)   (33/16c)(2+x2)exp(3x2/4)

Il est instructif de tracer ces densités. Les utilisateurs de Stata peuvent télécharger mon kaplanskyprogramme depuis SSC. L'utilisation d'une échelle logarithmique pour la densité peut être utile.

Sans donner tous les détails, ces exemples sapent toute histoire simple selon laquelle le kurtosis bas ou élevé a une interprétation claire en termes de pic ou en fait tout autre contraste unique.

Si le nom Irving Kaplansky sonne une cloche, c'est probablement parce que vous connaissez son travail en algèbre moderne. Il (1917-2006) était un mathématicien canadien (plus tard américain) et a enseigné et fait des recherches à Harvard, Chicago et Berkeley, avec une année de guerre dans le groupe de mathématiques appliquées du National Defence Council de l'Université Columbia. Kaplansky a apporté des contributions majeures à la théorie des groupes, à la théorie des anneaux, à la théorie des algèbres d'opérateurs et à la théorie des champs. Il était un pianiste et un parolier accompli et un exposant enthousiaste et lucide des mathématiques. Notons également quelques autres contributions à la probabilité et aux statistiques de Kaplansky (1943, 1945b) et Kaplansky et Riordan (1945).

Kaplansky, I. 1943. Une caractérisation de la distribution normale. Annals of Mathematical Statistics 14: 197-198.

Kaplansky, I. 1945a. Une erreur courante concernant le kurtosis. Journal, American Statistical Association 40: 259 uniquement.

Kaplansky, I. 1945b. La distribution asymptotique des séries d'éléments consécutifs. Annals of Mathematical Statistics 16: 200-203.

Kaplansky, I. et Riordan, J. 1945. Correspondances multiples et exécutions par la méthode symbolique. Annals of Mathematical Statistics 16: 272-277.

Nick Cox
la source
1
+1 Commentaires intéressants sur Kaplansky, dont je connais depuis longtemps le travail algébrique.
whuber
Nick, votre commentaire "En fait, les deux interprétations (pic et fin) pourraient être des termes raisonnables pour certaines distributions." est incorrect et donc pas utile, tout simplement parce que le kurtosis ne vous dit rien sur le "pic". Sérieusement, pouvez-vous même définir ce que signifie «pic»? Et, un suivi, si vous le permettez: Compte tenu de votre définition de «pic» (en supposant que vous pouvez en trouver un), comment cela se rapporte-t-il, mathématiquement, au kurtosis?
Peter Westfall
@Peter Westfall Si nous pouvons convenir que le kurtosis est ce que le kurtosis mesure, alors mon argument n'est que l'argument de Kaplansky, qui est basé sur des courbes concrètes et des résultats numériques, et non sur des combats verbaux, c'est-à-dire qu'un kurtosis plus élevé va parfois avec des densités de pic plus élevées, et inversement pour kurtosis inférieur. Je ne suis pas du tout partisan du terme pic, et quand je suis obligé de simplifier verbalement, j'ai tendance à affirmer qu'en pratique le kurtosis est surtout une histoire de poids de la queue. Je pense que les formules ici font tout le travail et portent tout le poids statistique et trouvent les polémiques verbales moins utiles.
Nick Cox
De plus, il ne peut y avoir, je suggère, aucune caractérisation facile de kurtosis, sauf pour des distributions entièrement symétriques. Je ne pense pas que quiconque soit obligé de définir un pic du tout; la définition qui existe est celle de kurtosis et les questions pratiques sont de savoir comment y penser et dans quelle mesure elle est utile.
Nick Cox
L'énoncé «simplement parce que le kurtosis ne vous dit rien sur le pic» n'est lui-même pas étayé. Les références manquantes incluraient certainement votre article dans TAS, qui est accessible aux personnes intéressées pour envisager votre propre discussion plus longue.
Nick Cox