Le qq-plot peut être utilisé pour visualiser la similitude de deux distributions (par exemple, visualiser la similitude d'une distribution à une distribution normale, mais aussi pour comparer deux distributions de données de bibliothèque). Existe-t-il des statistiques qui génèrent une mesure numérique plus objective qui représente leur similitude (de préférence sous une forme normalisée (0 <= x <= 1))? Le coefficient de Gini est par exemple utilisé en économie lorsque l'on travaille avec des courbes de Lorenz; y a-t-il quelque chose pour les parcelles QQ?
la source
J'ai récemment utilisé la corrélation entre le CDF empirique et le CDF ajusté pour quantifier la qualité de l'ajustement, et je me demande si cette approche pourrait également être utile dans le cas actuel, qui, si je comprends bien, implique la comparaison de deux ensembles de données empiriques. Une interpolation peut être nécessaire s'il existe différents nombres d'observations entre les ensembles.
la source
Je dirais que la manière plus ou moins canonique de comparer deux distributions serait un test du chi carré. La statistique n'est pas normalisée, cependant, et cela dépend de la façon dont vous choisissez les bacs. Le dernier point peut bien sûr être vu comme une fonctionnalité, pas comme un bug: le choix des bacs de manière appropriée vous permet de rechercher de plus près la similitude dans les queues qu'au milieu des distributions, par exemple.
la source
Une mesure assez directe de la «proximité» de la linéarité dans un tracé QQ serait une statistique de test de Shapiro-Francia (qui est étroitement liée à la plus connue de Shapiro-Wilk et peut être considérée comme une simple approximation).
La statistique de Shapiro-Francia est la corrélation quadratique entre les valeurs de données ordonnées et les statistiques d'ordre normal attendues (parfois étiquetées "quantiles théoriques") - c'est-à-dire que ce devrait être le carré de la corrélation que vous voyez dans l'intrigue, une relation assez directe mesure sommaire.
(Le Shapiro-Wilk est similaire mais prend en compte les corrélations entre les statistiques de commande; il a une interprétation similaire à la Shapiro-Francia et est à peu près aussi utile qu'un résumé du graphique QQ.)
Quoi qu'il en soit, pour un résumé numérique unique de ce que le graphique QQ montre, l'un d'entre eux pourrait être un moyen approprié de résumer le graphique.
Personnellement, j'ai tendance à rechercher davantage l'écart par rapport à la linéarité que sa proximité (ce qui suggère de regarder ). Cette échelle a tendance à vous laisser des valeurs assez constantes pour une quantité donnée de non-normalité.1−W′
[Parfois, je multiplie par ( tend à devenir plus petit avec si l'échantillonnage est normal). Sous échantillonnage à partir d'une normale, la moyenne ou la médiane de tendance à être assez stable lorsque change. Cependant, la multiplication par n'est pas encore tout à fait correcte, elle sur-corrige légèrement - le résultat augmente avec quelque part entre et - mais cette variation est petite par rapport aux sortes de valeurs vous avez tendance à subir tout type d'écart substantiel par rapport à la normalité. Atteindre une échelle où la distribution ne change pas beaucoup avecn 1−W′) n n(1−W′) n n n log(n) log(n)−−−−−√ n la rend plus semblable à une valeur de p transformée (moins utile comme mesure de la quantité de non-normalité, plus utile si vous êtes intéressé par quelque chose de plus comme juger si ce n'est pas simplement une variation aléatoire).]
la source