J'ai généré un tracé qq en utilisant le code suivant. Je sais que le tracé qq est utilisé pour vérifier si les données sont distribuées normalement ou non. Ma question est de savoir ce que les étiquettes des axes x et y indiquent dans le tracé qq et quelle est cette valeur carrée r indiquant ??
N = 1200
p = 0.53
q = 1000
obs = np.random.binomial(N, p, size = q)/N
import scipy.stats as stats
z = (obs-np.mean(obs))/np.std(obs)
stats.probplot(z, dist="norm", plot=plt)
plt.title("Normal Q-Q plot")
plt.show()
Je sais qu'il y a déjà une discussion sur l' intrigue qq , mais je ne pouvais pas comprendre le concept de malgré le fait de passer par cette discussion.
probability
normal-distribution
mathematical-statistics
descriptive-statistics
qq-plot
Elizabeth Susan Joseph
la source
la source
help(probplot)
états:probplot
génère un tracé de probabilité, qui ne doit pas être confondu avec un tracé QQ ou PP.Réponses:
La réponse de Macond est exacte, mais d'après le message d'origine, j'ai pensé qu'il pourrait être utile de simplifier un peu le verbiage.
Un tracé QQ représente un «tracé quantile-quantile» .
Il s'agit d'un tracé où les axes sont volontairement transformés afin de faire apparaître une distribution normale (ou gaussienne) en ligne droite . En d'autres termes, une distribution parfaitement normale suivrait exactement une ligne avec pente = 1 et interception = 0.
Par conséquent, si le tracé ne semble pas être - en gros - une ligne droite, la distribution sous-jacente n'est pas normale. S'il se plie, alors il y a plus de valeurs "high flyer" que prévu, par exemple. (Le lien fournit plus d'exemples.)
Les quantiles théoriques sont placés le long de l'axe des x. Autrement dit, l'axe x n'est pas vos données , c'est simplement une attente de l'endroit où vos données auraient dû être, si elles étaient normales.
Les données réelles sont tracées le long de l'axe y.
Les valeurs sont les écarts-types de la moyenne. Donc,
0
est la moyenne des données,1
est 1 écart-type ci-dessus, etc. Cela signifie, par exemple, que68.27%
toutes vos données doivent être comprises entre -1 et 1, si vous avez une distribution normale.La valeur n'est pas particulièrement utile pour ce type de tracé. est généralement utilisé pour déterminer si une variable dépend d'une autre. Eh bien, vous comparez une valeur théorique à une valeur réelle. Il y aura donc nécessairement une sorte de . (Par exemple, même une distribution uniforme aléatoire aura un modérément décent .) R 2 R 2 R 2R2 R2 R2 R2
Enfin, il existe un tracé similaire, rarement utilisé, appelé tracé PP . Ce graphique est plus utile si vous souhaitez vous concentrer sur la majeure partie des données, plutôt que sur les extrêmes.
la source
L'axe Y montre les valeurs de la distribution observée et l'axe X, les valeurs de la distribution théorique.
Chaque point est un quantile. Disons que s'il y avait 100 points sur le graphique, le premier point (celui en bas à gauche) indique une limite supérieure pour un intervalle, et lorsqu'il est ordonné du plus petit au plus grand, le plus petit 1 pour cent des points de données du la distribution correspondante reste dans cet intervalle. De même, le 2e point est la limite supérieure d'un intervalle, où se trouve le plus petit 2 pour cent des points de données de la distribution. C'est le concept de quantile. Mais ce n'est pas limité à un cas avec 100 intervalles, c'est un concept général et vous pouvez avoir autant d'intervalles que possible, alors vous aurez autant de quantiles décrivant les limites des intervalles.
La particularité de ce tracé est que la position de chaque point détermine la valeur réelle du quantile donné dans les deux distributions, en tant que valeur correspondante sur l'axe. Pensons comme s'il y avait à nouveau 100 points (quantiles), ce graphique indique que le plus petit 1% des points de données de la distribution observée se situe entre ( , -3,5] et aussi que le plus petit 1% des points de données de la distribution théorique se situe entre ( , -3.2]. De cette façon, vous pouvez voir les emplacements de la position de chaque limite d'intervalle dans les deux distributions.- ∞−∞ −∞
J'ai utilisé des points de données tout au long de ma réponse, comme des points de données ordonnés, etc. Cela fait référence à des distributions discrètes, mais le concept peut être généralisé pour des distributions continues.
R 2R2 est une mesure de l'adéquation des points à la ligne rouge. Si les deux axes avaient la même distribution, tous les points seraient exactement sur la ligne et serait égal à 1. Vous pouvez en apprendre plus à ce sujet dans n'importe quel texte expliquant la régression linéaire.R2
la source