Comment puis-je tester si deux distributions (non normales) diffèrent?

13

J'ai lu sur le test t de Student, mais il semble fonctionner lorsque nous pouvons supposer que les distributions d'origine sont normalement distribuées. Dans mon cas, ils ne le sont certainement pas.

De plus, si j'ai 13 distributions, dois-je faire des 13^2tests?

Voici un échantillon de deux distributions.  Il y a 13 distributions.

Martin Velez
la source
@Glen_b Les données ne sont pas discrètes. Les valeurs vont de -2 à 2.
Martin Velez

Réponses:

19

Il y a plusieurs sens dans lesquels "cela dépend".

(Une préoccupation potentielle est qu'il semble que les données d'origine pourraient être discrètes; cela devrait être clarifié.)

  1. selon la taille de l'échantillon, la non-normalité peut ne pas être un problème aussi important que tout cela pour le test t. Pour les grands échantillons au moins, il y a généralement une bonne robustesse de niveau - les taux d'erreur de type I ne devraient pas être trop affectés s'ils ne sont pas vraiment loin de la normale. La puissance peut être plus un problème avec des queues lourdes.

  2. Si vous recherchez des différences de distribution, un test d'adéquation à deux échantillons, tel que le test de Kolmogorov-Smirnov à deux échantillons, pourrait convenir (bien que d'autres tests puissent être effectués à la place).

  3. Si vous recherchez des différences de type d'emplacement dans une famille d'emplacement, ou des différences d'échelle dans une famille d'échelle, ou même simplement une relation de type P (X> Y)> P (Y> X), un Wilcoxon-Mann-Whitney deux échantillons d'essai pourraient convenir.

  4. Vous pouvez envisager de rééchantillonner des tests tels que des tests de permutation ou de bootstrap, si vous pouvez trouver une statistique appropriée pour le (s) type (s) de différences auquel vous souhaitez être sensible.

De plus, si j'ai 13 distributions, dois-je faire 13 ^ 2 tests?

Et bien non .

AB BA

AUNE

Ces deux éléments réduisent les comparaisons par paires de 169 à 78.

Troisièmement, il serait beaucoup plus habituel (mais pas obligatoire) de tester collectivement les différences, puis, peut-être, d'examiner les différences par paire dans les tests post-hoc par paire si le premier nul était rejeté.

Par exemple, à la place d'un Wilcoxon-Mann-Whitney comme au point 3. ci-dessus, on pourrait faire un test de Kruskal-Wallis, qui est sensible à toute différence de localisation entre les groupes.

Il existe également des versions à k échantillons du test de Kolmogorov-Smirnov , et des tests similaires de certains des autres tests d'adéquation à deux échantillons peuvent exister ou être construits.

Il existe également des versions à échantillon k des tests de rééchantillonnage et du test t (c.-à-d. ANOVA, ce qui pourrait convenir si la taille des échantillons est raisonnablement grande).


Ce serait vraiment bien d'avoir plus d'informations sur ce à quoi nous avons affaire et sur les types de différences qui vous intéressent le plus; ou à défaut, pour voir les parcelles QQ de certains des échantillons.

Glen_b -Reinstate Monica
la source
(+1) Tout comme pour ajouter que le test WMW est interprété comme un test de dominance stochastique si vous êtes prêt à supposer que les CDF de population ne se croisent pas. Les gens de l'OMI le voudraient plus souvent s'ils le savaient.
Scortchi - Réintégrer Monica
1
P(X<Y)12
@Glen_b Les données ne sont pas discrètes. Les valeurs vont de -2 à 2.
Martin Velez
Wow - informations importantes! Sont-ils limités à cette plage (2.1 est impossible), ou est-il simplement arrivé que les valeurs se trouvent dans cette plage?
Glen_b -Reinstate Monica
Ils sont limités à cette plage.
Martin Velez
5

Oui, je pense que vous ne pouvez pas faire mieux que de tester chaque distribution par rapport aux autres ...

Si pensez que votre question est liée à celle-ci: Comparaison de 2 distributions

Vous conseillez d'utiliser un test de Kolmogorov-Sminorv ou un test de Cramér-Von Mises. Ce sont deux tests d'adéquation très classiques.

Dans R, la fonction ks.testdans le package de statistiques implémente le premier. Le second peut être trouvé dans des packages comme cramer.

Pour en savoir plus sur ces deux tests: http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test http://en.wikipedia.org/wiki/Cram%C3%A9r%E2%80%93von_Mises_criterion

Pop
la source
2

Vous pouvez essayer l' analyse unidirectionnelle de la variance de Kruskal – Wallis

"Il est utilisé pour comparer plus de deux échantillons indépendants ou non liés"

Les violations de la normalité dans l'ANOVA ont été discutées dans
Rutherford Introducing Anova and Ancova: A GLM Approach 9.1.2 Violations de normalité

La première ligne est "Bien que la plupart des sources signalent que l'ANOVA ... est robuste en ce qui concerne les violations de l'hypothèse de normalité ..."

abbat_VL
la source
Merci! Il semble que l'on devrait exécuter ce test avant de faire des comparaisons par paires.
Martin Velez