Interprétation du tracé QQ

11

Considérez le code et la sortie suivants:

  par(mfrow=c(3,2))
  # generate random data from weibull distribution
  x = rweibull(20, 8, 2)
  # Quantile-Quantile Plot for different distributions
  qqPlot(x, "log-normal")
  qqPlot(x, "normal")
  qqPlot(x, "exponential", DB = TRUE)
  qqPlot(x, "cauchy")
  qqPlot(x, "weibull")
  qqPlot(x, "logistic")

entrez la description de l'image ici

Il semble que ce tracé QQ pour log-normal soit presque le même que le tracé QQ pour weibull. Comment les distinguer? De plus, si les points se trouvent dans la région définie par les deux lignes noires extérieures, cela indique-t-il qu'ils suivent la distribution spécifiée?

proton
la source
Je crois que vous utilisez le forfait voiture , n'est-ce pas? Si tel est le cas, vous devez inclure la déclaration library(car)dans votre code pour faciliter le suivi des utilisateurs. En général, vous pouvez également définir la valeur de départ (par exemple, set.seed(1)) pour rendre l'exemple reproductible, afin que n'importe qui puisse obtenir exactement les mêmes points de données que vous avez obtenus, bien que ce ne soit probablement pas aussi important ici.
gung - Réintégrer Monica
2
Cela ne fonctionnera pas sur mon ordinateur comme écrit. Par exemple, qqPlot du package car veut norm pour normal et lnorm pour log-normal. Qu'est-ce que je rate?
Tom
2
@ Tom, je me suis trompé sur le paquet. Évidemment, c'est le package qualityTools . De plus, l'exemple semble être tiré d' ici .
gung - Rétablir Monica
Une alternative intéressante est le graphique de Cullen et Frey, voir stats.stackexchange.com/questions/243973/… pour un exemple
kjetil b halvorsen

Réponses:

12

Il y a deux ou trois choses à dire ici:

  1. la forme du CDF pour le log-normal est assez similaire à la forme du CDF du Weibull pour les rendre plus difficiles à distinguer que le niveau de similitude entre le Weibull et les autres.
  2. les lignes noires extérieures forment une bande de confiance . L'utilisation de la bande de confiance dans l'inférence est la même que toute autre forme standard d'inférence statistique fréquenciste. Autrement dit, lorsque les valeurs se situent dans la bande, nous ne pouvons pas rejeter l'hypothèse nulle selon laquelle la distribution posée est la bonne. Ce n'est pas la même chose que de dire que nous savons que la distribution posée est la bonne. (Notez que ceci est un excellent exemple de ce que j'ai discuté dans une autre réponse ici d'une situation où la perspective des pêcheurs sur le test d'hypothèse serait préférable à Neyman-Pearson.)
  3. vous avez besoin de plus de données; votre est seulement 20 ici. N
gung - Réintégrer Monica
la source
Existe-t-il des moyens d'examiner les distributions pour de petits échantillons?
proton
en fait, il semble que les points se situent dans les bandes de confiance pour toutes les distributions. Nous ne pouvons donc pas distinguer les distributions?
proton
1
Il existe des tests pour vérifier l'ajustement d'un ensemble de données à une distribution théorique, mais j'ai tendance à penser qu'ils sont inférieurs aux qq-parcelles. Fondamentalement, vous ne pourrez pas faire la distinction entre ces distributions avec . Si vous pensez à cela en termes de puissance statistique, votre capacité à rejeter chacun des faux nuls ici est . Cela peut vous aider à lire la réponse que j'ai liée au point # 2. 5 %n=205%
gung - Rétablir Monica
2
+1 sur la petite taille de l'échantillon. Utiliser 300 échantillons aiderait beaucoup à distinguer les choses. Proton: Non, vous ne pouvez pas vraiment distinguer les distributions avec un petit échantillon. Comment peux-tu? C'est comme essayer d'identifier un visage avec 20 pixels.
Wayne
3

Il semble que ce tracé QQ pour log-normal soit presque le même que le tracé QQ pour weibull.

Oui.

Comment les distinguer?

À cette taille d'échantillon, vous ne pouvez probablement pas.

De plus, si les points se trouvent dans la région définie par les deux lignes noires extérieures, cela indique-t-il qu'ils suivent la distribution spécifiée?

Non. Cela indique seulement que vous ne pouvez pas dire que la distribution des données est différente de cette distribution. C'est le manque de preuve d'une différence, pas la preuve d'un manque de différence.

Vous pouvez être presque certain que les données proviennent d'une distribution qui n'est pas celle que vous avez envisagée (pourquoi proviendrait-elle exactement de l'une d'entre elles?).

Glen_b -Reinstate Monica
la source
Comme le libellé: "C'est le manque de preuves d'une différence, pas la preuve d'un manque de différence."
jlandercy