J'essaie de déterminer si mon ensemble de données de données continues suit une distribution gamma avec des paramètres forme 1,7 et taux 0,000063.
Le problème est que lorsque j'utilise R pour créer un tracé QQ de mon ensemble de données rapport à la distribution théorique gamma (1.7, 0.000063), j'obtiens un tracé qui montre que les données empiriques correspondent à peu près à la distribution gamma. La même chose se produit avec le tracé ECDF.
Cependant, lorsque je lance un test de Kolmogorov-Smirnov, cela me donne une valeur déraisonnablement petite de .
Que dois-je choisir de croire? La sortie graphique ou le résultat du test KS?
pdf
kolmogorov-smirnov
cdf
qq-plot
user22119
la source
la source
Réponses:
Je ne vois aucun sens à ne pas "croire" l'intrigue QQ (si vous l'avez produite correctement); c'est juste une représentation graphique de la réalité de vos données, juxtaposée à la distribution définitionnelle. De toute évidence, ce n'est pas un match parfait, mais si c'est assez bon pour vos besoins, cela peut être plus ou moins la fin de l'histoire. Vous voudrez peut-être vérifier cette question connexe: les tests de normalité sont-ils «essentiellement inutiles»?
Si vos données sont trop différentes d'une distribution gamma pour vos objectifs, c'est une autre question. Le test KS seul ne peut pas vous répondre (car son résultat dépendra de la taille de votre échantillon, entre autres raisons), mais le tracé QQ pourrait vous aider à décider. Vous voudrez peut-être également rechercher des alternatives robustes à toutes les autres analyses que vous prévoyez d'exécuter, et si vous êtes particulièrement sérieux au sujet de la sensibilité de toute analyse ultérieure aux écarts de la distribution gamma, vous voudrez peut-être envisager de faire des tests de simulation aussi .
la source
Ce que vous pourriez faire est de créer plusieurs échantillons à partir de votre distribution théorique et de les tracer sur le fond de votre tracé QQ. Cela vous donnera une idée du type de variabilité que vous pouvez raisonnablement attendre d'un simple échantillonnage.
Vous pouvez étendre cette idée pour créer une enveloppe autour de la ligne théorique, en utilisant l'exemple des pages 86-89 de:
Venables, WN et Ripley, BD 2002. Statistiques appliquées modernes avec S. New York: Springer.
Ce sera une enveloppe point par point. Vous pouvez étendre cette idée encore plus loin pour créer une enveloppe globale en utilisant les idées des pages 151-154 de:
Davison, AC et Hinkley, DV 1997. Méthodes de bootstrap et leur application. Cambridge: Cambridge University Press.
Cependant, pour l'exploration de base, je pense que le simple fait de tracer quelques échantillons de référence en arrière-plan de votre tracé QQ sera plus que suffisant.
la source
Le test KS suppose des paramètres particuliers de votre distribution. Il teste l'hypothèse "les données sont réparties selon cette distribution particulière". Vous avez peut-être spécifié ces paramètres quelque part. Sinon, certains paramètres par défaut ne correspondant pas peuvent avoir été utilisés. Notez que le test KS deviendra conservateur si les paramètres estimés sont connectés à l'hypothèse.
Cependant, la plupart des tests d'ajustement sont utilisés dans le mauvais sens. Si le test KS n'aurait pas montré de signification, cela ne signifie pas que le modèle que vous vouliez prouver est approprié. C'est ce que @Nick Stauner a dit à propos d'un échantillon trop petit. Ce problème est similaire aux tests d'hypothèse ponctuelle et aux tests d'équivalence.
Donc à la fin: ne considérez que les parcelles QQ.
la source
QQ Plot est une technique d'analyse de données exploratoire et doit être traitée comme telle - tout comme tous les autres graphiques EDA. Ils sont uniquement destinés à vous donner un aperçu préliminaire des données disponibles. Vous ne devriez jamais décider ou arrêter votre analyse sur la base de tracés EDA comme le tracé QQ. C'est un mauvais conseil de ne considérer que les parcelles QQ. Vous devriez certainement utiliser des techniques quantitatives comme le test KS. Supposons que vous ayez un autre tracé QQ pour un ensemble de données similaire, comment compareriez-vous les deux sans outil quantitatif? La prochaine étape pour vous, après les tests EDA et KS, est de savoir pourquoi le test KS donne une faible valeur p (dans votre cas, cela pourrait même être dû à une erreur).
Les techniques d'EDA ne sont PAS censées servir d'outils de prise de décision. En fait, je dirais que même les statistiques inférentielles sont censées être uniquement exploratoires. Ils vous indiquent comment orienter votre analyse statistique. Par exemple, un test t sur un échantillon ne vous donnerait qu'un niveau de confiance que l'échantillon peut (ou non) appartenir à la population, vous pouvez toujours continuer sur la base de cet aperçu de la répartition de vos données et de ce que sont ses paramètres, etc. En fait, quand certains déclarent que même les techniques implémentées dans le cadre des bibliothèques d'apprentissage automatique sont également de nature exploratoire !!! J'espère qu'ils le pensent dans ce sens ...!
Conclure des décisions statistiques sur la base de graphiques ou de techniques de visualisation revient à se moquer des progrès réalisés en science statistique. Si vous me le demandez, vous devriez utiliser ces graphiques comme outils pour communiquer les conclusions finales basées sur votre analyse statistique quantitative.
la source