Le tracé QQ ne correspond pas à l'histogramme

12

J'ai un histogramme, la densité du noyau et une distribution normale ajustée des rendements du journal financier, qui sont transformés en pertes (les signes sont modifiés), et un tracé QQ normal de ces données:

http://tinypic.com/r/34ocwvr/6

Le tracé QQ montre clairement que les queues ne sont pas ajustées correctement. Mais si je regarde l'histogramme et la distribution normale ajustée (bleu), même les valeurs autour de 0,0 ne sont pas ajustées correctement. Ainsi, le graphique QQ montre que seules les queues ne sont pas ajustées correctement, mais clairement la distribution entière n'est pas ajustée correctement. Pourquoi cela n'apparaît-il pas dans l'intrigue QQ?

Stat Tistician
la source
10
La courbe bleue à gauche correspond à une ligne hypothétique de "meilleur ajustement" à droite. La ligne de droite n'est pas celle qui correspond le mieux: c'est celle qui correspond le mieux aux valeurs moyennes de la distribution. Si vous deviez ajuster une "courbe en cloche" aux deux tiers du milieu environ de l'histogramme, au lieu de l'ensemble, cette courbe se rapprocherait du sommet et des côtés fortement inclinés, mais alors ce serait loin trop bas au niveau des épaules et de la queue. C'est exactement ce que montre également la ligne du graphique qq: ces graphiques sont en parfait accord; ce sont les crises qui diffèrent.
whuber

Réponses:

11

+1 à @NickSabbe, car 'l'intrigue vous dit simplement que "quelque chose ne va pas"', ce qui est souvent la meilleure façon d'utiliser un qq-intrigue (car il peut être difficile de comprendre comment les interpréter). Cependant, il est possible d'apprendre à interpréter un qq-plot en réfléchissant à la manière d'en créer un.

Vous commenceriez par trier vos données, puis vous compteriez votre chemin à partir de la valeur minimale en prenant chacune un pourcentage égal. Par exemple, si vous aviez 20 points de données, lorsque vous comptiez le premier (le minimum), vous vous diriez: «J'ai compté 5% de mes données». Vous suivriez cette procédure jusqu'à la fin, auquel cas vous auriez passé 100% de vos données. Ces valeurs en pourcentage peuvent ensuite être comparées aux mêmes valeurs en pourcentage de la normale théorique correspondante (c'est-à-dire la normale avec la même moyenne et le même écart-type).

Lorsque vous allez les tracer, vous découvrirez que vous avez des problèmes avec la dernière valeur, qui est 100%, car lorsque vous avez traversé 100% d'une normale théorique, vous êtes «à» l'infini. Ce problème est résolu en ajoutant une petite constante au dénominateur à chaque point de vos données avant de calculer les pourcentages. Une valeur typique serait d'ajouter 1 au dénominateur; par exemple, vous appelleriez votre 1er (sur 20) point de données 1 / (20 + 1) = 5%, et votre dernier serait 20 / (20 + 1) = 95%. Maintenant, si vous tracez ces points par rapport à une normale théorique correspondante, vous aurez un tracé pp(pour tracer les probabilités par rapport aux probabilités). Un tel tracé montrerait très probablement les écarts entre votre distribution et une normale au centre de la distribution. Cela est dû au fait que 68% d'une distribution normale se situe dans +/- 1 SD, donc les parcelles pp ont une excellente résolution là-bas, et une mauvaise résolution ailleurs. (Pour en savoir plus sur ce point, il peut être utile de lire ma réponse ici: PP-parcelles vs QQ-parcelles .)

Souvent, nous sommes les plus préoccupés par ce qui se passe dans les queues de notre distribution. Pour obtenir une meilleure résolution , il (et donc pire résolution au milieu), nous pouvons construire une qq parcelle au lieu. Nous le faisons en prenant nos ensembles de probabilités et en les passant à travers l'inverse du CDF de la distribution normale (c'est comme lire la table z au dos d'un livre de statistiques à l'envers - vous lisez une probabilité et lisez un z- But). Le résultat de cette opération est deux ensembles de quantiles , qui peuvent être tracés l'un contre l'autre de manière similaire.

@whuber a raison de dire que la ligne de référence est tracée ensuite (généralement) en trouvant la meilleure ligne d'ajustement à travers les 50% des points du milieu (c'est-à-dire du premier quartile au troisième). Ceci est fait pour faciliter la lecture de l'intrigue. En utilisant cette ligne, vous pouvez interpréter l'intrigue comme vous montrant si les quantiles de votre distribution s'écartent progressivement d'une vraie normale lorsque vous vous déplacez dans les queues. (Notez que la position des points plus éloignés du centre n'est pas vraiment indépendante de ceux qui sont plus proches; donc le fait que, dans votre histogramme spécifique, les queues semblent se rejoindre après que les `` épaules '' diffèrent ne signifie pas que les quantiles sont à nouveau les mêmes.)

X-3y-.2les données dans cette queue de votre distribution que dans une normale théorique. En d'autres termes:

  • si les deux queues tournent dans le sens antihoraire, vous avez des queues lourdes ( leptokurtosis ),
  • si les deux queues tournent dans le sens horaire, vous avez des queues légères (platykurtosis),
  • si votre queue droite se tord dans le sens antihoraire et votre queue gauche se tord dans le sens horaire, vous avez un biais droit
  • si votre queue gauche se tord dans le sens antihoraire et votre queue droite se tord dans le sens horaire, vous avez un biais gauche
gung - Réintégrer Monica
la source
Je trouve ces rubriques moins que satisfaisantes. La première est qu'ils n'ont aucun lien direct avec les principes derrière l'intrigue: ils doivent être mémorisés séparément (et peuvent être complètement confondus par une mémoire défectueuse). Un autre (dans ce cas) est qu'il est trop compliqué pour être fiable. Un autre encore est qu'un manque de standardisation dans la façon dont ces tracés sont dessinés peut rendre cette méthode incorrecte lorsqu'elle est appliquée à un tracé qq fait par une procédure différente. Mais les graphiques qq sont faciles à interpréter: voir ma tentative d'explication à mi-chemin quantdec.com/envstats/notes/class_03/probability.htm .
whuber
5

Autrement dit: le graphique QQ montre le classement dans la distribution empirique par rapport à la distribution attendue. Dans votre cas (et c'est en fait assez souvent le cas; toujours avec des distributions symétriques), les rangs près du milieu seront similaires entre attendus et empiriques, par conséquent, le tracé QQ est proche de la ligne là-bas.

Il n'est pas si simple d'identifier réellement les observations "étranges" en fonction de leur position dans un tracé QQ: le tracé vous dit simplement que "quelque chose ne va pas", et si vous en savez plus sur les données / distributions, vous pouvez découvrir où sont les problèmes.

Nick Sabbe
la source
1
Je maintiendrais la conclusion opposée, Nick: le tracé qq facilite beaucoup l'identification et l'évaluation des résultats "étranges" par rapport au corps de données, tandis que l'histogramme a tendance à obscurcir beaucoup ce que révèle le tracé qq. La question ici n'est pas de savoir si le tracé qq est proche d'une ligne: il s'agit de quelle ligne a été choisie par le logiciel comme référence pour le tracé! (Je soupçonne que Rson ajustement se fonde sur certains centiles modérés, tels que les quartiles, alors que, de toute évidence, l'ajustement à l'histogramme était basé sur des moments correspondants.)
whuber
1
@whuber: Personnellement, j'aime voir les deux si possible (surtout parce que je "lis" les histogrammes plus facilement que les graphiques QQ). Mais vous avez raison et je me corrige.
Nick Sabbe
Et vous avez tout à fait raison de dire que les deux techniques sont complémentaires. Par exemple, la bimodalité a tendance à être plus facile à détecter (et à quantifier) ​​dans un histogramme que dans un tracé qq. Je crois qu'avec la pratique, les histogrammes et les graphiques qq deviennent faciles à lire. Les tracés QQ peuvent prendre un peu plus de temps à apprendre uniquement parce qu'ils n'ont pas une forme de présentation standard: vous devez toujours vérifier quel axe est la valeur et quel quantile, et parfois les quantiles sont convertis en "valeurs équivalentes" (au lieu de en cours de normalisation).
whuber