J'ai récemment réalisé qu'il existe des différences dans les valeurs de kurtosis fournies par SPSS et Stata.
Voir http://www.ats.ucla.edu/stat/mult_pkg/faq/general/kurtosis.htm
Je crois comprendre que leur interprétation serait donc différente.
Des conseils sur la façon de gérer cela?
spss
stata
interpretation
kurtosis
Cesare Camestre
la source
la source
Réponses:
Les trois formules
Trois formules pour le kurtosis sont généralement utilisées par différents programmes. Je vais énoncer les trois formules ( , et ) et les programmes qui les utilisent. G 2 b 2g2 g2 b2
La première formule et la définition typique utilisée dans de nombreux manuels sont (c'est la deuxième formule dans le lien que vous avez fourni) où désigne les exemples de moments : mr
Parfois, un terme de correction de -3 est ajouté à cette formule afin qu'une distribution normale ait un kurtosis de 0. La formule de kurtosis avec un terme de -3 est appelée kurtosis en excès (la première formule dans le lien que vous avez fourni).
La deuxième formule est (utilisée par SAS, SPSS et MS Excel; c'est la troisième formule dans le lien que vous avez fourni)
où est le kurtosis tel que défini dans la première formule.g2
La troisième formule est (utilisée par MINITAB et BMDP)
où est la variance de l'échantillon sans biais :s2
Dansg2−3 G2 b2
R
le kurtosis peut être calculé en utilisant lakurtosis
fonction due1071
package (lien ici ). L'optiontype
détermine laquelle des trois formules est utilisée pour les calculs (1 = , 2 = , 3 = ).Ces deux articles discutent et comparent les trois formules: première , seconde .
Résumé des différences entre les formules
Voir aussi la page Wikipedia et la page MathWorld sur le kurtosis.
la source
Le lien en question parle également de SAS. Mais en fait, rien dans cette question, à l'exception peut-être de l'objectif de l'affiche, ne la limite à ces programmes nommés particuliers.
Je pense que nous devons séparer ici des types de problèmes très différents, dont certains sont illusoires et d'autres authentiques.
Certains programmes soustraient et certains ne soustraient pas 3 de sorte que la mesure de kurtosis rapportée soit 3 pour les variables gaussiennes / normales sans soustraction et 0 avec soustraction. J'ai vu des gens perplexes par cela, souvent lorsque la différence se révélait être de 2 999 et pas exactement de 3.
Donc, il y a un petit problème de formules, le n ° 1 étant beaucoup plus important que le n ° 2, mais les deux sont mineurs s'ils sont compris. Le conseil est clairement de consulter la documentation du programme que vous utilisez, et s'il n'y a pas de documentation expliquant ce genre de détails, d'abandonner ce programme immédiatement. Mais un cas de test aussi simple qu'une variable (1, 2) donne un kurtosis de 1 ou 4 selon le seul # 1 (sans facteur de correction).
La question porte alors sur l'interprétation, mais c'est une question beaucoup plus ouverte et controversée.
Avant de passer au domaine principal de discussion, une difficulté souvent signalée mais peu connue est que les estimations de kurtosis sont limitées en fonction de la taille de l'échantillon. J'ai écrit une critique à Cox, NJ 2010. Les limites de l'asymétrie et du kurtosis de l'échantillon. Journal Stata 10 (3): 482-495. http://www.stata-journal.com/article.html?article=st0204
Résumé: L'asymétrie et le kurtosis de l'échantillon sont limités par les fonctions de la taille de l'échantillon. Les limites, ou approximations de celles-ci, ont été redécouvertes à plusieurs reprises au cours des dernières décennies, mais semblent néanmoins rester mal connues. Les limites confèrent un biais à l'estimation et, dans les cas extrêmes, impliquent qu'aucun échantillon ne pourrait témoigner avec exactitude de sa distribution parente. Les principaux résultats sont expliqués dans un examen du didacticiel, et il est montré comment Stata et Mata peuvent être utilisés pour confirmer et explorer leurs conséquences.
Passons maintenant à ce qui est communément considéré comme le nœud du problème:
Beaucoup de gens traduisent le kurtosis comme un pic, mais d'autres soulignent qu'il sert souvent de mesure du poids de la queue. En fait, les deux interprétations pourraient toutes deux être un libellé raisonnable pour certaines distributions. Il est presque inévitable qu'il n'y ait pas d'interprétation verbale simple de kurtosis: notre langage n'est pas assez riche en comparaisons de sommes de quatrième puissances de déviations par rapport à la moyenne et de sommes de secondes puissances de même.
Dans un classique mineur et souvent négligé, Irving Kaplansky (1945a) a attiré l'attention sur quatre exemples de distributions avec différentes valeurs de kurtosis et de comportement non cohérent avec certaines discussions sur le kurtosis.
Il est instructif de tracer ces densités. Les utilisateurs de Stata peuvent télécharger mon
kaplansky
programme depuis SSC. L'utilisation d'une échelle logarithmique pour la densité peut être utile.Sans donner tous les détails, ces exemples sapent toute histoire simple selon laquelle le kurtosis bas ou élevé a une interprétation claire en termes de pic ou en fait tout autre contraste unique.
Si le nom Irving Kaplansky sonne une cloche, c'est probablement parce que vous connaissez son travail en algèbre moderne. Il (1917-2006) était un mathématicien canadien (plus tard américain) et a enseigné et fait des recherches à Harvard, Chicago et Berkeley, avec une année de guerre dans le groupe de mathématiques appliquées du National Defence Council de l'Université Columbia. Kaplansky a apporté des contributions majeures à la théorie des groupes, à la théorie des anneaux, à la théorie des algèbres d'opérateurs et à la théorie des champs. Il était un pianiste et un parolier accompli et un exposant enthousiaste et lucide des mathématiques. Notons également quelques autres contributions à la probabilité et aux statistiques de Kaplansky (1943, 1945b) et Kaplansky et Riordan (1945).
Kaplansky, I. 1943. Une caractérisation de la distribution normale. Annals of Mathematical Statistics 14: 197-198.
Kaplansky, I. 1945a. Une erreur courante concernant le kurtosis. Journal, American Statistical Association 40: 259 uniquement.
Kaplansky, I. 1945b. La distribution asymptotique des séries d'éléments consécutifs. Annals of Mathematical Statistics 16: 200-203.
Kaplansky, I. et Riordan, J. 1945. Correspondances multiples et exécutions par la méthode symbolique. Annals of Mathematical Statistics 16: 272-277.
la source