J'ai un histogramme, la densité du noyau et une distribution normale ajustée des rendements du journal financier, qui sont transformés en pertes (les signes sont modifiés), et un tracé QQ normal de ces données:
Le tracé QQ montre clairement que les queues ne sont pas ajustées correctement. Mais si je regarde l'histogramme et la distribution normale ajustée (bleu), même les valeurs autour de 0,0 ne sont pas ajustées correctement. Ainsi, le graphique QQ montre que seules les queues ne sont pas ajustées correctement, mais clairement la distribution entière n'est pas ajustée correctement. Pourquoi cela n'apparaît-il pas dans l'intrigue QQ?
data-visualization
normality-assumption
histogram
qq-plot
Stat Tistician
la source
la source
Réponses:
+1 à @NickSabbe, car 'l'intrigue vous dit simplement que "quelque chose ne va pas"', ce qui est souvent la meilleure façon d'utiliser un qq-intrigue (car il peut être difficile de comprendre comment les interpréter). Cependant, il est possible d'apprendre à interpréter un qq-plot en réfléchissant à la manière d'en créer un.
Vous commenceriez par trier vos données, puis vous compteriez votre chemin à partir de la valeur minimale en prenant chacune un pourcentage égal. Par exemple, si vous aviez 20 points de données, lorsque vous comptiez le premier (le minimum), vous vous diriez: «J'ai compté 5% de mes données». Vous suivriez cette procédure jusqu'à la fin, auquel cas vous auriez passé 100% de vos données. Ces valeurs en pourcentage peuvent ensuite être comparées aux mêmes valeurs en pourcentage de la normale théorique correspondante (c'est-à-dire la normale avec la même moyenne et le même écart-type).
Lorsque vous allez les tracer, vous découvrirez que vous avez des problèmes avec la dernière valeur, qui est 100%, car lorsque vous avez traversé 100% d'une normale théorique, vous êtes «à» l'infini. Ce problème est résolu en ajoutant une petite constante au dénominateur à chaque point de vos données avant de calculer les pourcentages. Une valeur typique serait d'ajouter 1 au dénominateur; par exemple, vous appelleriez votre 1er (sur 20) point de données 1 / (20 + 1) = 5%, et votre dernier serait 20 / (20 + 1) = 95%. Maintenant, si vous tracez ces points par rapport à une normale théorique correspondante, vous aurez un tracé pp(pour tracer les probabilités par rapport aux probabilités). Un tel tracé montrerait très probablement les écarts entre votre distribution et une normale au centre de la distribution. Cela est dû au fait que 68% d'une distribution normale se situe dans +/- 1 SD, donc les parcelles pp ont une excellente résolution là-bas, et une mauvaise résolution ailleurs. (Pour en savoir plus sur ce point, il peut être utile de lire ma réponse ici: PP-parcelles vs QQ-parcelles .)
Souvent, nous sommes les plus préoccupés par ce qui se passe dans les queues de notre distribution. Pour obtenir une meilleure résolution , il (et donc pire résolution au milieu), nous pouvons construire une qq parcelle au lieu. Nous le faisons en prenant nos ensembles de probabilités et en les passant à travers l'inverse du CDF de la distribution normale (c'est comme lire la table z au dos d'un livre de statistiques à l'envers - vous lisez une probabilité et lisez un z- But). Le résultat de cette opération est deux ensembles de quantiles , qui peuvent être tracés l'un contre l'autre de manière similaire.
@whuber a raison de dire que la ligne de référence est tracée ensuite (généralement) en trouvant la meilleure ligne d'ajustement à travers les 50% des points du milieu (c'est-à-dire du premier quartile au troisième). Ceci est fait pour faciliter la lecture de l'intrigue. En utilisant cette ligne, vous pouvez interpréter l'intrigue comme vous montrant si les quantiles de votre distribution s'écartent progressivement d'une vraie normale lorsque vous vous déplacez dans les queues. (Notez que la position des points plus éloignés du centre n'est pas vraiment indépendante de ceux qui sont plus proches; donc le fait que, dans votre histogramme spécifique, les queues semblent se rejoindre après que les `` épaules '' diffèrent ne signifie pas que les quantiles sont à nouveau les mêmes.)
la source
Autrement dit: le graphique QQ montre le classement dans la distribution empirique par rapport à la distribution attendue. Dans votre cas (et c'est en fait assez souvent le cas; toujours avec des distributions symétriques), les rangs près du milieu seront similaires entre attendus et empiriques, par conséquent, le tracé QQ est proche de la ligne là-bas.
Il n'est pas si simple d'identifier réellement les observations "étranges" en fonction de leur position dans un tracé QQ: le tracé vous dit simplement que "quelque chose ne va pas", et si vous en savez plus sur les données / distributions, vous pouvez découvrir où sont les problèmes.
la source
R
son ajustement se fonde sur certains centiles modérés, tels que les quartiles, alors que, de toute évidence, l'ajustement à l'histogramme était basé sur des moments correspondants.)