Je compare la distribution de taille des arbres dans six paires de parcelles où une parcelle a reçu un traitement et l'autre un contrôle. En utilisant un test de Kolmogorov-Smirnov sur chaque paire de parcelles, je trouve que varie de à 0,75 . Existe-t-il des méthodes appropriées pour traiter toutes les répliques ensemble, comme une extension multi-échantillon du test KS, ou existe-t-il un test de suivi approprié? Ou devrais-je simplement conclure quelque chose comme "La distribution des tailles diffère considérablement (p <0,05 ) dans 2 paires de parcelles et marginalement ( p = 0,59 ) dans une paire de parcelles."0,0003707 0,75 ( p < 0,05 p = 0,59
nonparametric
kolmogorov-smirnov
N Brouwer
la source
la source
Réponses:
Il existe en fait plusieurs exemples de tests KS. Par exemple, un r-échantillon Kolmogorov-Smirnov-Test avec qui, je crois, a un bon pouvoir. Une pré-impression de ce beau papier est disponible ici . Je connais également les K-Sample Analogues des Kolmogorov-Smirnov et Cramer-V. Tests Mises (mais ils ont moins de puissance pour autant que je sache).r≥2
la source
Il existe un package R kSamples qui vous donne, entre autres, un test Anderson-Darling non paramétrique à k-échantillon. L'hypothèse nulle est que tous les k échantillons proviennent de la même distribution qui n'a pas besoin d'être spécifiée. Vous pouvez peut-être l'utiliser.
Petit exemple de comparaison d'échantillons distribués normaux et gamma mis à l'échelle afin qu'ils aient la même moyenne et la même variance:
la source
Quelques approches:
Utilisez les valeurs de p par paire, mais ajustez-les pour des comparaisons multiples en utilisant quelque chose comme les réglages de Bon Feroni ou False Discovery Rate (le premier sera probablement un peu trop conservateur). Ensuite, vous pouvez être sûr que ceux qui sont encore sensiblement différents ne sont probablement pas dus aux tests multiples.
Vous pouvez créer un test global dans la saveur de KS en trouvant la plus grande distance entre l'une des distributions, c'est-à-dire tracer tous les cdf empiriques et trouver la plus grande distance de la ligne la plus basse à la ligne la plus haute, ou peut-être la distance moyenne ou une autre signification mesure. Ensuite, vous pouvez déterminer si cela est significatif en effectuant un test de permutation: regroupez toutes les données dans un grand bac, puis divisez-les au hasard en groupes avec les mêmes tailles d'échantillon que vos groupes d'origine, recalculez la statistique sur les données permutées et répétez le processus plusieurs fois (environ 999). Ensuite, voyez comment vos données d'origine se comparent aux ensembles de données permutés. Si la statistique des données d'origine se situe au milieu de celle permutée, il n'y a pas de différence significative trouvée, mais si elle est au bord, ou au-delà de celles permutées, il se passe quelque chose d'important (mais cela ne vous dit pas lesquelles sont différentes). Vous devriez probablement essayer cela avec des données simulées où vous savez qu'il y a une différence assez grande pour être intéressante juste pour vérifier la puissance de ce test pour trouver les différences intéressantes.
la source