PP-parcelles vs QQ-parcelles

39

Quelle est la différence entre les diagrammes de probabilité, les diagrammes PP et les diagrammes QQ lorsque vous essayez d'analyser une distribution ajustée aux données?

kay
la source
4
Il semblerait que wikipedia puisse vous aider avec celui-ci: le diagramme de probabilité . QQ plot , parcelle PP . Si vous avez une question plus précise, veuillez clarifier!
vector07
Merci, je pense que je devenais confus, complot PP et complot de probabilité!
kay

Réponses:

41

Comme @ vector07 le note , le diagramme de probabilité est la catégorie la plus abstraite dont les diagrammes pp et qq sont membres. Ainsi, je discuterai de la distinction entre les deux derniers. La meilleure façon de comprendre les différences est de réfléchir à leur construction et de comprendre qu'il faut reconnaître la différence entre les quantiles d'une distribution et la proportion de la distribution que vous avez traversée lorsque vous atteignez un quantile donné. Vous pouvez voir la relation entre ceux-ci en traçant la fonction de distribution cumulative (CDF) d'une distribution. Par exemple, considérons la distribution normale standard:

entrez la description de l'image ici

Nous voyons qu'environ 68% de l'axe des y (région située entre les lignes rouges) correspond à 1/3 de l'axe des x (région située entre les lignes bleues). Cela signifie que lorsque nous utilisons la proportion de la distribution que nous avons traversée pour évaluer la correspondance entre deux distributions (c'est-à-dire que nous utilisons un graphique en pp), nous obtiendrons beaucoup de résolution au centre des distributions, mais moins à les queues. En revanche, lorsque nous utilisons les quantiles pour évaluer la correspondance entre deux distributions (c’est-à-dire que nous utilisons un graphique qq), nous obtenons une très bonne résolution au niveau des queues, mais moins au centre. (Etant donné que les analystes de données sont généralement plus préoccupés par les queues d'une distribution, ce qui aura plus d'effet sur l'inférence, par exemple, les qq-parcelles sont beaucoup plus courantes que les parcelles pp.)

Pour voir ces faits en action, je vais passer en revue la construction d'une parcelle pp et d'une parcelle qq. (Je décris aussi verbalement / plus lentement la construction d'une courbe qq-plot: QQ-plot ne correspond pas à l'histogramme .) Je ne sais pas si vous utilisez R, mais j'espère que cela s'expliquera tout seul:

set.seed(1)                           # this makes the example exactly reproducible
N = 10                                # I will generate 10 data points
x = sort(rnorm(n=N, mean=0, sd=1))    #  from a normal distribution w/ mean 0 & SD 1
n.props = pnorm(x, mean(x), sd(x))    # here I calculate the probabilities associated
                                      #  w/ these data if they came from a normal 
                                      #  distribution w/ the same mean & SD

   # I calculate the proportion of x we've gone through at each point
props = 1:N / (N+1)
n.quantiles = qnorm(props, mean=mean(x), sd=sd(x))  # this calculates the quantiles (ie
                                                    #  z-scores) associated w/ the props
my.data = data.frame(x=x, props=props,              # here I bundle them together
                     normal.proportions=n.props, 
                     normal.quantiles=n.quantiles)
round(my.data, digits=3)                            # & display them w/ 3 decimal places
#         x        props  normal.proportions  normal.quantiles
# 1  -0.836        0.091               0.108            -0.910
# 2  -0.820        0.182               0.111            -0.577
# 3  -0.626        0.273               0.166            -0.340
# 4  -0.305        0.364               0.288            -0.140
# 5   0.184        0.455               0.526             0.043
# 6   0.330        0.545               0.600             0.221
# 7   0.487        0.636               0.675             0.404
# 8   0.576        0.727               0.715             0.604
# 9   0.738        0.818               0.781             0.841
# 10  1.595        0.909               0.970             1.174

entrez la description de l'image ici

Malheureusement, ces graphiques ne sont pas très distinctifs, car il existe peu de données et nous comparons une distribution normale normale à une distribution théorique correcte. Il n’ya donc rien de spécial à voir ni au centre ni dans l’arrière de la distribution. Pour mieux démontrer ces différences, je trace une distribution t (à queue grasse) avec 4 degrés de liberté et une distribution bimodale ci-dessous. Les queues épaisses sont beaucoup plus distinctives dans le graphique qq, alors que la bimodalité est plus distinctive dans le graphique pp.

entrez la description de l'image ici entrez la description de l'image ici

gung - Rétablir Monica
la source
14
@ AlekandrH Nous apprécions vraiment votre préoccupation pour les étudiants. Votre hypothèse implicite selon laquelle ce site s’adresse uniquement aux étudiants qui débutent en statistiques est cependant incorrecte; et votre insinuation que les "réponses verbeuses" sont inappropriées pour les étudiants ne résiste pas à la réalité, comme l'attestent de nombreuses "réponses verbeuses" sur ce site. Voici un exemple plus constructif d’expression de votre plainte: montrez-nous comment améliorer nos réponses et inspirez-nous à vous imiter en publiant ici une réponse conforme à vos normes pour répondre aux besoins des nouveaux étudiants.
whuber
12

Voici une définition de v8doc.sas.com :

Un graphique PP compare la fonction de distribution cumulative empirique d'un ensemble de données à une fonction de distribution cumulative théorique spécifiée F (·). Un graphique QQ compare les quantiles d'une distribution de données avec les quantiles d'une distribution théorique normalisée à partir d'une famille spécifiée de distributions.

Dans le texte, ils mentionnent également:

  • des différences concernant la manière dont les parcelles PP et QQ sont construites et interprétées.
  • avantages de l’utilisation de l’un ou l’autre en ce qui concerne la comparaison des distributions empiriques et théoriques.

Référence :

SAS Institute Inc., SAS OnlineDoc®, version 8, Cary, Caroline du Nord: SAS Institute Inc., 1999

Andre Silva
la source