J'ai lu sur le test t de Student, mais il semble fonctionner lorsque nous pouvons supposer que les distributions d'origine sont normalement distribuées. Dans mon cas, ils ne le sont certainement pas.
De plus, si j'ai 13 distributions, dois-je faire des 13^2
tests?
r
hypothesis-testing
distributions
Martin Velez
la source
la source
Réponses:
Il y a plusieurs sens dans lesquels "cela dépend".
(Une préoccupation potentielle est qu'il semble que les données d'origine pourraient être discrètes; cela devrait être clarifié.)
selon la taille de l'échantillon, la non-normalité peut ne pas être un problème aussi important que tout cela pour le test t. Pour les grands échantillons au moins, il y a généralement une bonne robustesse de niveau - les taux d'erreur de type I ne devraient pas être trop affectés s'ils ne sont pas vraiment loin de la normale. La puissance peut être plus un problème avec des queues lourdes.
Si vous recherchez des différences de distribution, un test d'adéquation à deux échantillons, tel que le test de Kolmogorov-Smirnov à deux échantillons, pourrait convenir (bien que d'autres tests puissent être effectués à la place).
Si vous recherchez des différences de type d'emplacement dans une famille d'emplacement, ou des différences d'échelle dans une famille d'échelle, ou même simplement une relation de type P (X> Y)> P (Y> X), un Wilcoxon-Mann-Whitney deux échantillons d'essai pourraient convenir.
Vous pouvez envisager de rééchantillonner des tests tels que des tests de permutation ou de bootstrap, si vous pouvez trouver une statistique appropriée pour le (s) type (s) de différences auquel vous souhaitez être sensible.
Et bien non .
Ces deux éléments réduisent les comparaisons par paires de 169 à 78.
Troisièmement, il serait beaucoup plus habituel (mais pas obligatoire) de tester collectivement les différences, puis, peut-être, d'examiner les différences par paire dans les tests post-hoc par paire si le premier nul était rejeté.
Par exemple, à la place d'un Wilcoxon-Mann-Whitney comme au point 3. ci-dessus, on pourrait faire un test de Kruskal-Wallis, qui est sensible à toute différence de localisation entre les groupes.
Il existe également des versions à k échantillons du test de Kolmogorov-Smirnov , et des tests similaires de certains des autres tests d'adéquation à deux échantillons peuvent exister ou être construits.
Il existe également des versions à échantillon k des tests de rééchantillonnage et du test t (c.-à-d. ANOVA, ce qui pourrait convenir si la taille des échantillons est raisonnablement grande).
Ce serait vraiment bien d'avoir plus d'informations sur ce à quoi nous avons affaire et sur les types de différences qui vous intéressent le plus; ou à défaut, pour voir les parcelles QQ de certains des échantillons.
la source
Oui, je pense que vous ne pouvez pas faire mieux que de tester chaque distribution par rapport aux autres ...
Si pensez que votre question est liée à celle-ci: Comparaison de 2 distributions
Vous conseillez d'utiliser un test de Kolmogorov-Sminorv ou un test de Cramér-Von Mises. Ce sont deux tests d'adéquation très classiques.
Dans
R
, la fonctionks.test
dans le package de statistiques implémente le premier. Le second peut être trouvé dans des packages commecramer
.Pour en savoir plus sur ces deux tests: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion
la source
Vous pouvez essayer l' analyse unidirectionnelle de la variance de Kruskal – Wallis
"Il est utilisé pour comparer plus de deux échantillons indépendants ou non liés"
Les violations de la normalité dans l'ANOVA ont été discutées dans
Rutherford Introducing Anova and Ancova: A GLM Approach 9.1.2 Violations de normalité
La première ligne est "Bien que la plupart des sources signalent que l'ANOVA ... est robuste en ce qui concerne les violations de l'hypothèse de normalité ..."
la source