J'ai des données de test où j'ai plusieurs grands échantillons de distributions discrètes que j'utilise comme distributions empiriques. Je veux tester si les distributions sont réellement différentes et quelle est la différence de moyennes pour ces distributions qui sont réellement différentes.
Puisqu'il s'agit de distributions discrètes, je crois comprendre que le test de Kolmogorov-Smirnov n'est pas valide en raison de l'hypothèse de distribution continue sous-jacente. Le test du chi carré serait-il le bon test pour savoir si les distributions sont réellement différentes?
Quel test utiliserais-je pour la différence de moyens? Une meilleure approche consisterait-elle à échantillonner à partir des distributions et à prendre la différence, puis à effectuer une analyse sur la distribution de la différence?
la source
Réponses:
1) Le Kolmogorov-Smirnov peut toujours être utilisé, mais si vous utilisez les valeurs critiques tabulées, il sera conservateur (ce qui n'est qu'un problème car il pousse votre courbe de puissance vers le bas). Mieux vaut obtenir la distribution de permutation de la statistique, de sorte que vos niveaux de signification soient ce que vous les choisissez. Cela ne fera une grande différence que s'il y a beaucoup de liens. Ce changement est vraiment facile à mettre en œuvre. (Mais le test KS n'est pas la seule comparaison possible; si l'on calcule de toute façon des distributions de permutation, il existe d'autres possibilités.)
2) les tests d'ajustement du khi carré vanille pour les données discrètes sont généralement, à mon avis, une très mauvaise idée. Si la perte de puissance potentielle ci-dessus vous a empêché d'utiliser le test KS, le problème avec le chi carré est souvent bien pire - il jette les informations les plus critiques, à savoir l'ordre entre les catégories (les valeurs d'observation), dégonflant sa puissance en le répartissant sur des alternatives qui ne tiennent pas compte de l'ordre, de sorte qu'il est pire de détecter des alternatives fluides - comme un changement de lieu et d'échelle par exemple). Même avec les mauvais effets des liens lourds ci-dessus, le test KS dans de nombreux cas a toujours une meilleure puissance (tout en réduisant le taux d'erreur de type I).
Le chi carré peut également être modifié pour tenir compte de l'ordre (partitionner le chisquare en composants linéaires, quadratiques, cubiques, etc. via des polynômes orthogonaux et utiliser uniquement les quelques termes de poids faible - 4 à 6 sont des choix courants). Les articles de Rayner et Best (et d'autres) discutent de cette approche, qui découle des tests de douceur de Neyman-Barton. C'est une bonne approche mais si vous n'avez pas accès à un logiciel pour cela, cela peut prendre un peu de configuration.
Soit l'approche modifiée devrait être bien, mais si vous n'allez pas modifier l'une ou l'autre approche, ce n'est pas nécessairement le cas que le chi carré sera meilleur que le test KS - dans certaines situations, il pourrait être meilleur ... ou peut être bien pire.
Si les liens ne sont pas lourds (c'est-à-dire qu'il y a beaucoup de valeurs différentes prises par les données), je considérerais le KS tel quel. S'ils sont modérés, je chercherais à calculer la distribution de permutation. S'ils sont très lourds (c'est-à-dire que les données ne prennent que quelques valeurs différentes), le chi carré simple peut être compétitif.
la source