Je travaille avec un petit ensemble de données (21 observations) et ai le graphe QQ normal suivant dans R:
Voyant que l'intrigue ne soutient pas la normalité, que pourrais-je déduire de la distribution sous-jacente? Il me semble qu'une distribution plus biaisée à droite conviendrait mieux, n'est-ce pas? Aussi, quelles autres conclusions pouvons-nous tirer des données?
Réponses:
Si les valeurs sont situées le long d'une ligne, la distribution a la même forme (jusqu'à l'emplacement et l'échelle) que la distribution théorique que nous avons supposée.
Comportement local : Lorsque vous examinez les valeurs d’échantillon triées sur l’axe des y et les quantiles attendus (approximatifs) sur l’axe des x, vous pouvez identifier la différence entre les valeurs d’une section du tracé et une tendance linéaire globale en vérifiant si le les valeurs sont plus ou moins concentrées que ne le supposerait la distribution théorique dans cette partie de la parcelle:
Comme nous le voyons, les points moins concentrés augmentent de plus en plus de points que supposés augmenter moins rapidement que ne le suggère une relation linéaire globale et, dans les cas extrêmes, correspondent à un écart dans la densité de l'échantillon (se présente sous la forme d'un saut presque vertical) ou un pic de valeurs constantes (valeurs alignées horizontalement). Cela nous permet de repérer une queue épaisse ou légère et, partant, une asymétrie supérieure ou inférieure à la distribution théorique, etc.
Apparence générale:
Voici à quoi ressemblent les tracés QQ (pour des choix particuliers de distribution) en moyenne :
Mais le hasard a tendance à obscurcir les choses, surtout avec de petits échantillons:
Notez que, à les résultats peuvent être beaucoup plus variables que ceux présentés ici. J'ai généré plusieurs ensembles de six parcelles de ce type et choisi un ensemble "sympa" dans lequel vous pouvez voir la forme des six parcelles en même temps. Parfois, les relations droites semblent incurvées, les relations incurvées semblent rectilignes, les queues épaisses semblent obliques, et ainsi de suite - avec de si petits échantillons, la situation peut souvent être beaucoup moins claire:n=21
Il est possible de distinguer plus de caractéristiques que celles (comme la discrétion, par exemple), mais avec , même de telles caractéristiques de base peuvent être difficiles à repérer; nous ne devrions pas essayer de «surinterpréter» chaque petit mouvement. À mesure que la taille des échantillons augmente, les parcelles se «stabilisent» en général et les caractéristiques deviennent plus facilement interprétables que représentatives du bruit. [Avec certaines distributions très lourdes, la grande valeur rare rare pourrait empêcher la bonne stabilisation de l'image, même avec des échantillons de taille assez grande.]n=21
Vous pouvez également trouver la suggestion ici utile lorsque vous essayez de décider de combien vous devriez vous inquiéter d’une quantité particulière de courbure ou de wiggliness.
Un guide plus approprié pour l'interprétation en général comprendrait également des affichages pour des échantillons de plus en plus grands.
la source
J'ai fait une application brillante pour aider à interpréter l'intrigue QQ normale. Essayez ce lien.
Dans cette application, vous pouvez régler l'asymétrie, la finesse (kurtosis) et la modalité de données et vous pouvez voir comment l'histogramme et le tracé de QQ changent. Inversement, vous pouvez l'utiliser d'une manière qui, compte tenu du schéma du tracé QQ, vérifie ensuite comment doit être l'asymétrie, etc.
Pour plus de détails, voir la documentation correspondante.
J'ai réalisé que je n'avais pas assez d'espace libre pour fournir cette application en ligne. Comme la demande, je fournirai tous les trois morceaux de code:
sample.R
,server.R
etui.R
ici. Ceux qui sont intéressés par l'exécution de cette application peuvent simplement charger ces fichiers dans Rstudio puis l'exécuter sur votre propre PC.Le
sample.R
fichier:Le
server.R
fichier:Enfin, le
ui.R
fichier:la source
Une explication très utile (et intuitive) est donnée par prof. Philippe Rigollet dans le cours MOOC MIT: 18.650 Statistiques pour les applications, automne 2016 - voir la vidéo à 45 minutes
https://www.youtube.com/watch?v=vMaKx9fmJHE
J'ai copié grossièrement son diagramme que je garde dans mes notes car je le trouve très utile.
Dans l'exemple 1, dans le diagramme en haut à gauche, nous voyons que dans la queue droite le quantile empirique (ou échantillon) est inférieur au quantile théorique
Qe <Qt
Ceci peut être interprété à l'aide des fonctions de densité de probabilité. Pour la même valeur , le quantile empirique se trouve à gauche du quantile théorique, ce qui signifie que la queue droite de la distribution empirique est "plus légère" que la queue droite de la distribution théorique, c’est-à-dire qu’elle tombe plus rapidement à des valeurs proches de zéro.α
la source
Étant donné que ce fil a été jugé définitif par StackExchange "comment interpréter le tracé de qq normal", je voudrais indiquer aux lecteurs une relation mathématique précise et agréable entre le tracé de qq normal et la statistique de kurtosis en excès.
C'est ici:
https://stats.stackexchange.com/a/354076/102879
Un résumé bref (et trop simplifié) est donné comme suit (voir le lien pour des énoncés mathématiques plus précis): Vous pouvez réellement voir un kurtosis en excès dans le tracé normal de qq comme la distance moyenne entre les quantiles de données et les quantiles normaux théoriques correspondants, pondérée. par distance des données à la moyenne. Ainsi, lorsque les valeurs absolues dans les queues du graphique qq s'écartent généralement des valeurs normales prévues dans les directions extrêmes, vous obtenez un excès de kurtosis.
Comme kurtosis est la moyenne de ces déviations pondérée par les distances par rapport à la moyenne, les valeurs proches du centre du graphique qq ont peu d’impact sur kurtosis. Par conséquent, l'excès de kurtosis n'est pas lié au centre de la distribution, où se trouve le "pic". L'excès de kurtosis est plutôt presque entièrement déterminé par la comparaison des queues de la distribution de données à la distribution normale.
la source