Comment puis-je vérifier si mes données, par exemple le salaire, proviennent d'une distribution exponentielle continue dans R?
Voici l'histogramme de mon échantillon:
. Toute aide sera fortement appréciée!
Comment puis-je vérifier si mes données, par exemple le salaire, proviennent d'une distribution exponentielle continue dans R?
Voici l'histogramme de mon échantillon:
. Toute aide sera fortement appréciée!
fitdistr
dans R. Elle ajuste les fonctions de densité de probabilité (pdfs) en fonction de la méthode d'estimation du maximum de vraisemblance (MLE). Recherchez également dans ce site des termes tels que pdf, fitdistr, mle et des questions similaires. Gardez à l'esprit que des questions comme celle-ci nécessitent presque un exemple reproductible pour recueillir de bonnes réponses. En outre, cela aide si la question ne concerne pas uniquement la programmation (ce qui pourrait entraîner sa mise en attente comme hors sujet).Réponses:
Je le ferais en estimant d'abord le seul paramètre de distribution à l'
rate
aide defitdistr
. Cela ne vous dira pas si la distribution convient ou non, vous devez donc utiliser le test d' adéquation . Pour cela, vous pouvez utiliserks.test
:D'après mon expérience personnelle (bien que je ne l'ai jamais trouvée officiellement nulle part, veuillez me confirmer ou corriger),
ks.test
ne fonctionnera que si vous fournissez d'abord l'estimation du paramètre. Vous ne pouvez pas le laisser estimer les paramètres automatiquement comme par exemplegoodfit
. C'est pourquoi vous avez besoin de cette procédure en deux étapesfitdistr
.Pour plus d' informations suivre le excellent guide de Ricci: MISE EN PLACE AVEC DISTRIBUTIONS R .
la source
Bien que je recommande normalement de vérifier l'exponentialité en utilisant des tracés de diagnostic (tels que les tracés QQ), je vais discuter des tests, car les gens en veulent souvent:
Comme le suggère Tomas, le test de Kolmogorov-Smirnov ne convient pas pour tester l'exponentialité avec un paramètre non spécifié.
Cependant, si vous ajustez les tables pour l'estimation des paramètres, vous obtenez le test de Lilliefors pour la distribution exponentielle.
Lilliefors, H. (1969), "Sur le test de Kolmogorov – Smirnov pour la distribution exponentielle à moyenne inconnue", Journal de l'American Statistical Association , Vol. 64. pp. 387–389.
L'utilisation de ce test est discutée dans Conover's Practical Nonparametric Statistics .
Cependant, dans D'Agostino & Stephens ' Goodness of Fit Techniques , ils discutent d'une modification similaire du test d'Anderson-Darling (un peu obliquement si je me souviens bien, mais je pense que toutes les informations requises sur la façon de l'aborder pour le cas exponentiel sont se trouve dans le livre), et c'est presque certain d'avoir plus de pouvoir contre des alternatives intéressantes.
De même, on pourrait estimer quelque chose comme un test de Shapiro-Francia (semblable mais plus simple que le Shapiro-Wilk), en basant un test sur où est la corrélation entre les statistiques de commande et les scores exponentiels ( statistiques d'ordre exponentiel attendu). Cela correspond à tester la corrélation dans le tracé QQ.rn(1−r2) r
Enfin, on pourrait adopter l' approche du test en douceur , comme dans le livre de Rayner & Best ( Smooth Tests of Goodness of Fit , 1990 - bien que je pense qu'il y en ait une plus récente, avec Thas et " in R " ajoutés au titre). Le cas exponentiel est également couvert par:
JCW Rayner et DJ Best (1990), "Des tests en douceur de la qualité de l'ajustement: un aperçu", Revue statistique internationale , vol. 58, n ° 1 (avril 1990), p. 9-17
Cosma Shalizi discute également des tests en douceur dans un chapitre de ses notes de cours sur l' analyse avancée des données de premier cycle , ou consultez le chapitre 15 de son livre Advanced Data Analysis from an Elementary Point of View .
Pour certains des éléments ci-dessus, vous devrez peut-être simuler la distribution de la statistique de test; pour d'autres, des tableaux sont disponibles (mais dans certains de ces cas, il peut être plus facile de simuler de toute façon, ou encore plus précis de se simuler, comme avec le test de Lilliefors, en raison de la taille de simulation limitée dans l'original).
De tous ceux-là, je pencherais pour faire celui qui est l'équivalent exponentiel de Shapiro-Francia (c'est-à-dire que je testerais la corrélation dans le tracé QQ [ou si je faisais des tableaux, j'utiliserais peut-être , qui rejettera les mêmes cas] - il devrait être assez puissant pour être compétitif avec les meilleurs tests, mais est très facile à faire, et a la correspondance agréable avec l'apparence visuelle de l'intrigue QQ (on pourrait même choisissez d'ajouter la corrélation et la valeur de p au tracé, si vous le souhaitez).n(1−r2)
la source
Vous pouvez utiliser un qq-plot , qui est une méthode graphique pour comparer deux distributions de probabilité en traçant leurs quantiles l'un contre l'autre.
Dans R, il n'y a pas de fonction qq-plot prête à l'emploi pour la distribution exponentielle spécifiquement (au moins parmi les fonctions de base). Cependant, vous pouvez utiliser ceci:
Lors de l'interprétation de vos résultats: si les deux distributions comparées sont similaires, les points du tracé qq se situeront approximativement sur la ligne y = x. Si les distributions sont liées linéairement, les points du tracé qq se situeront approximativement sur une ligne, mais pas nécessairement sur la ligne y = x.
la source
qexp
de SSC est une implémentation en conserve.