Les données:
Aux fins de cette question / communication, nous pouvons supposer que les données ressemblent rnbinom(1000,size=0.1,prob=0.01)
à R, qui génère un échantillon aléatoire de 1 000 observations à partir d'une distribution binomiale négative (avec size=0.1
et probabilité de succès prob=0.01
). Il s'agit de la paramétrisation où la variable aléatoire représente le nombre d'échecs avant le size
nombre de succès. La queue est longue et 1 000 observations, ce n'est pas beaucoup de données.
Le problème: on m'a donné quelques données (entier sur {1,2, ....}) [voir ci-dessus] (1 500 points de données) et on m'a demandé de trouver la distribution "la mieux adaptée" et des estimations de tous les paramètres. Je ne sais rien d'autre sur les données. Je suis conscient que ce n'est pas un très grand échantillon de données avec une longue queue. Plus de données est une possibilité.
Ce que j'ai fait: j'ai envisagé d'utiliser un test de rapport de vraisemblance en ajustant deux distributions différentes aux données, mais je ne pense pas que cela s'applique (comme dans, je ne peux pas déterminer les valeurs p critiques appropriées) à moins que les deux distributions ne soient imbriquées ...
J'ai alors envisagé d'utiliser un test de Kolmogorov-Smirnov (ajusté pour les données discrètes) mais, dans R de toute façon, il s'est plaint de ne pas pouvoir calculer une valeur de p pour les "données avec liens".
Quelle est la meilleure façon pour moi de tester / déterminer l'ajustement de différentes distributions dans ce contexte? Voici quelques autres choses que j'ai envisagées:
- Demandez (beaucoup) plus de données. Mais cela va-t-il aider? Pourrai-je utiliser des résultats asymptotiques, par exemple?
- Envisagez-vous un programme de bootstrap / rééchantillonnage / monte-carlo? Dans l'affirmative, existe-t-il une référence standard que je peux / devrais lire pour savoir comment procéder correctement? Merci
la source