J'ai lu que le test de Kolmogorov-Smirnov ne devrait pas être utilisé pour tester la qualité de l'ajustement d'une distribution dont les paramètres ont été estimés à partir de l'échantillon.
Est-il judicieux de diviser mon échantillon en deux et d'utiliser la première moitié pour l'estimation des paramètres et la seconde pour le test KS?
Merci d'avance
estimation
fitting
kolmogorov-smirnov
sortega
la source
la source
Réponses:
La meilleure approche consiste à calculer votre valeur critique de la valeur p par simulation. Le problème est que lorsque vous estimez les paramètres à partir des données plutôt que d'utiliser des valeurs hypothétiques, la distribution de la statistique KS ne suit pas la distribution nulle.
Au lieu de cela, vous pouvez ignorer les valeurs p du test KS et simuler un ensemble d'ensembles de données de la distribution candidate (avec un ensemble significatif de paramètres) de la même taille que vos données réelles. Ensuite, pour chaque ensemble, estimez les paramètres et effectuez le test KS en utilisant les paramètres estimés. Votre p-value sera la proportion des statistiques de test des ensembles simulés qui sont plus extrêmes que pour vos données d'origine.
la source
Le fractionnement des échantillons peut peut-être réduire le problème de distribution de la statistique, mais il ne le supprime pas.
Votre idée évite que les estimations soient «trop proches» par rapport aux valeurs de la population car elles sont basées sur le même échantillon.
Vous n'évitez pas le problème qu'ils sont toujours des estimations. La distribution de la statistique de test n'est pas celle tabulée.
Dans ce cas, il augmente le taux de rejet sous le zéro, au lieu de le réduire considérablement.
Un meilleur choix consiste à utiliser un test dont les paramètres ne sont pas supposés connus, comme un Shapiro Wilk.
Si vous êtes marié à un test de type Kolmogorov-Smirnov, vous pouvez adopter l'approche du test de Lilliefors.
Autrement dit, pour utiliser la statistique KS, mais pour que la distribution de la statistique de test reflète l'effet de l'estimation des paramètres - simuler la distribution de la statistique de test sous l'estimation des paramètres. (Ce n'est plus sans distribution, vous avez donc besoin de nouvelles tables pour chaque distribution.)
http://en.wikipedia.org/wiki/Lilliefors_test
Liliefors a utilisé la simulation pour le cas normal et exponentiel, mais vous pouvez facilement le faire pour n'importe quelle distribution spécifique; dans quelque chose comme R, il suffit de quelques instants pour simuler 10 000 ou 100 000 échantillons et obtenir une distribution de la statistique de test sous la valeur nulle.
[Une alternative pourrait être de considérer l'Anderson-Darling, qui a le même problème, mais qui - à en juger par le livre de D'Agostino et Stephens ( Goodness-of-fit-techniques ) semble y être moins sensible. Vous pourriez adapter l'idée de Lilliefors, mais ils suggèrent un ajustement relativement simple qui semble fonctionner assez bien.]
Mais il existe encore d'autres approches; il existe des familles de tests de qualité de l'ajustement, par exemple (voir par exemple le livre de Rayner et Best) qui, dans un certain nombre de cas spécifiques, peuvent traiter l'estimation des paramètres.
* l'effet peut toujours être assez important - peut-être plus grand que ce qui serait normalement considéré comme acceptable; Momo a raison d'en exprimer sa préoccupation. Si un taux d'erreur de type I plus élevé (et une courbe de puissance plus plate) est un problème, ce n'est peut-être pas une amélioration!
la source
Je crains que cela ne résoudrait pas le problème. Je pense que le problème n'est pas que les paramètres sont estimés à partir du même échantillon mais à partir de n'importe quel échantillon. La dérivation de la distribution nulle habituelle du test KS ne tient pas compte d'une erreur d'estimation dans les paramètres de la distribution de référence, mais les considère plutôt comme donnés. Voir aussi Durbin 1973 qui discute longuement de ces problèmes et propose des solutions.
la source