Je compare un échantillon et vérifie s'il est distribué comme une distribution discrète. Cependant, je ne suis pas sûr que Kolmogorov-Smirnov s'applique. Wikipédia semble impliquer que non. Si ce n'est pas le cas, comment puis-je tester la distribution de l'échantillon?
29
Réponses:
Elle ne s'applique pas aux distributions discrètes. Voir http://www.itl.nist.gov/div898/handbook/eda/section3/eda35g.htm par exemple.
Y a-t-il une raison pour laquelle vous ne pouvez pas utiliser un test d'adéquation du chi carré? voir http://www.itl.nist.gov/div898/handbook/eda/section3/eda35f.htm pour plus d'informations.
la source
Comme c'est souvent le cas en statistique, cela dépend de ce que vous voulez dire .
Si vous voulez dire "Je calcule ma statistique de test sur un échantillon tiré d'une distribution discrète et je recherche ensuite les tableaux standard", vous obtiendrez un taux d'erreur de type I vrai inférieur à celui que vous avez choisi (peut-être beaucoup plus bas).
Le montant dépend de la «discrétion» de la distribution. Si la probabilité d'un résultat est assez faible (donc la proportion de valeurs liées dans les données devrait être faible), cela n'aura pas beaucoup d'importance - beaucoup de gens n'auraient pas de problème avec l'exécution d'un 5 % test à 4,5% disent. Ainsi, par exemple, si vous testez un uniforme discret sur [1,1000], vous n'avez probablement pas à vous inquiéter.
Mais s'il y a une forte probabilité qu'une valeur soit liée, alors l'effet sur le taux d'erreur de type I peut être marqué. Si vous obtenez un niveau de signification de 0,005 lorsque vous vouliez 0,05, cela peut être un problème, car cela aura un impact correspondant sur la puissance.
Si au contraire vous voulez dire "je calcule ma statistique de test sur un échantillon tiré d'une distribution discrète et ensuite j'utilise une valeur critique appropriée / calcule une valeur de p appropriée pour ma situation" (disons via un test de permutation, par exemple), alors le test est certainement valable dans le sens où vous obtiendrez le bon taux d'erreur de type I - jusqu'à la discrétion de la statistique de test elle-même, bien sûr. (Bien qu'il puisse y avoir de meilleurs tests pour votre objectif particulier, tout comme il y en a généralement dans le cas continu.)
Notez que la distribution de la statistique de test elle-même n'est plus sans distribution, mais un test de permutation évite ce problème.
Donc, parfois, il est normal d'utiliser les tables standard même avec des distributions discrètes, et même lorsque ce n'est pas correct, ce n'est pas tant la statistique de test que les valeurs critiques / valeurs p que vous utilisez avec qui est le problème.
la source
la source