Tracé QQ en Python

11

J'ai généré un tracé qq en utilisant le code suivant. Je sais que le tracé qq est utilisé pour vérifier si les données sont distribuées normalement ou non. Ma question est de savoir ce que les étiquettes des axes x et y indiquent dans le tracé qq et quelle est cette valeur carrée r indiquant ??

  N = 1200
  p = 0.53
  q = 1000
  obs = np.random.binomial(N, p, size = q)/N

import scipy.stats as stats

z = (obs-np.mean(obs))/np.std(obs)

stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()

entrez la description de l'image ici

Je sais qu'il y a déjà une discussion sur l' intrigue qq , mais je ne pouvais pas comprendre le concept de malgré le fait de passer par cette discussion.

Elizabeth Susan Joseph
la source
4
Ceci est très proche d'être un doublon du thread lié - Python vs R n'est pas une distinction importante ici - mais l' aspect est nouveau. Ce pourrait être une bonne idée que les questions et les réponses se concentrent un peu plus sur cet aspect pour éviter les doublons. (Je me demande si est susceptible d'être mal compris, car même pour un mauvais ajustement, la pente ascendante qui est inévitable dans un tracé QQ signifie que nous nous attendons à un un peu plus grand que zéro. Donc, des valeurs qui pourraient être assez impressionnantes dans une régression l'analyse n'est peut-être pas aussi impressionnante ici.)R 2 R 2R2R2R2
Silverfish
@Silverfish Je ne trouverais pas utile ou utile de se concentrer sur le . Les graphiques QQ sont généralement vus , pas seulement rapportés avec un tableau de myriades de valeurs . Tant que la visualisation est là, pourquoi la réduire à un seul numéro? Si l'intrigue QQ semble "mauvaise", mais que le semble en quelque sorte "bon", diriez-vous toujours que c'est normal? La plupart des bons packages ne fournissent même pas le précisément pour cette raison. Cet argument vis-à-vis du moment porte même un joli nom: le quatuor d'Anscombe . R 2 R 2 R 2R2R2R2R2
Mike Williamson
@MikeWilliamson Je suis d'accord que le n'est pas susceptible de se révéler particulièrement utile (cela faisait partie de mon argument, même si je l'ai mal exprimé). Mon point principal était que "comment interpréter un QQ-plot" a été longuement discuté ici , comme la question le note déjà - la seule raison pour laquelle ce fil ne doit pas être fermé en double est la requête sur , de sorte que vraiment devrait être discuté dans les réponses ici (même si c'est pour dire qu'il n'est pas utile!)R 2R2R2
Silverfish
Êtes-vous sûr de tracer un tracé QQ? help(probplot)états: probplotgénère un tracé de probabilité, qui ne doit pas être confondu avec un tracé QQ ou PP.
abukaj

Réponses:

10

La réponse de Macond est exacte, mais d'après le message d'origine, j'ai pensé qu'il pourrait être utile de simplifier un peu le verbiage.

Un tracé QQ représente un «tracé quantile-quantile» .

Il s'agit d'un tracé où les axes sont volontairement transformés afin de faire apparaître une distribution normale (ou gaussienne) en ligne droite . En d'autres termes, une distribution parfaitement normale suivrait exactement une ligne avec pente = 1 et interception = 0.

Par conséquent, si le tracé ne semble pas être - en gros - une ligne droite, la distribution sous-jacente n'est pas normale. S'il se plie, alors il y a plus de valeurs "high flyer" que prévu, par exemple. (Le lien fournit plus d'exemples.)


  1. Que représentent les étiquettes x & y?

Les quantiles théoriques sont placés le long de l'axe des x. Autrement dit, l'axe x n'est pas vos données , c'est simplement une attente de l'endroit où vos données auraient dû être, si elles étaient normales.

Les données réelles sont tracées le long de l'axe y.

Les valeurs sont les écarts-types de la moyenne. Donc, 0est la moyenne des données, 1est 1 écart-type ci-dessus, etc. Cela signifie, par exemple, que 68.27%toutes vos données doivent être comprises entre -1 et 1, si vous avez une distribution normale.

  1. Que signifie la valeur ?R2

La valeur n'est pas particulièrement utile pour ce type de tracé. est généralement utilisé pour déterminer si une variable dépend d'une autre. Eh bien, vous comparez une valeur théorique à une valeur réelle. Il y aura donc nécessairement une sorte de . (Par exemple, même une distribution uniforme aléatoire aura un modérément décent .) R 2 R 2 R 2R2R2R2R2


Enfin, il existe un tracé similaire, rarement utilisé, appelé tracé PP . Ce graphique est plus utile si vous souhaitez vous concentrer sur la majeure partie des données, plutôt que sur les extrêmes.

Mike Williamson
la source
1
Le mot biais n'est pas le meilleur choix ici: je dirais transformé .
Nick Cox
Grande explication. Pouvez-vous expliquer comment les axes X (valeurs attendues) sont générés?
Vivek Ananthan
1

L'axe Y montre les valeurs de la distribution observée et l'axe X, les valeurs de la distribution théorique.

Chaque point est un quantile. Disons que s'il y avait 100 points sur le graphique, le premier point (celui en bas à gauche) indique une limite supérieure pour un intervalle, et lorsqu'il est ordonné du plus petit au plus grand, le plus petit 1 pour cent des points de données du la distribution correspondante reste dans cet intervalle. De même, le 2e point est la limite supérieure d'un intervalle, où se trouve le plus petit 2 pour cent des points de données de la distribution. C'est le concept de quantile. Mais ce n'est pas limité à un cas avec 100 intervalles, c'est un concept général et vous pouvez avoir autant d'intervalles que possible, alors vous aurez autant de quantiles décrivant les limites des intervalles.

La particularité de ce tracé est que la position de chaque point détermine la valeur réelle du quantile donné dans les deux distributions, en tant que valeur correspondante sur l'axe. Pensons comme s'il y avait à nouveau 100 points (quantiles), ce graphique indique que le plus petit 1% des points de données de la distribution observée se situe entre ( , -3,5] et aussi que le plus petit 1% des points de données de la distribution théorique se situe entre ( , -3.2]. De cette façon, vous pouvez voir les emplacements de la position de chaque limite d'intervalle dans les deux distributions.-

J'ai utilisé des points de données tout au long de ma réponse, comme des points de données ordonnés, etc. Cela fait référence à des distributions discrètes, mais le concept peut être généralisé pour des distributions continues.

R 2R2 est une mesure de l'adéquation des points à la ligne rouge. Si les deux axes avaient la même distribution, tous les points seraient exactement sur la ligne et serait égal à 1. Vous pouvez en apprendre plus à ce sujet dans n'importe quel texte expliquant la régression linéaire.R2

Macond
la source
3
Cependant, les textes sur la régression linéaire n'expliqueront pas comment interpréter lorsque les points sont aussi sévèrement contraints que ceux sur un tracé QQ! En particulier, les points sur un tracé QQ doivent être monotones non décroissants. Cela oblige à être extraordinairement élevé quoi qu'il arrive. R 2R2R2
whuber