Évaluation de l'importance des différences de distribution

22

J'ai deux groupes de données. Chacun avec une distribution différente de plusieurs variables. J'essaie de déterminer si les distributions de ces deux groupes sont différentes d'une manière statistiquement significative. J'ai les données sous forme brute et regroupées dans des catégories plus faciles à traiter avec des décomptes de fréquence dans chacune.

Quels tests / procédures / méthodes dois-je utiliser pour déterminer si ces deux groupes sont ou non significativement différents et comment dois-je procéder en SAS ou R (ou Orange)?

Jay Stevens
la source
2
Êtes-vous intéressé à savoir si les distributions sont d'une forme différente (par exemple, normale, poisson, etc.) ou si les paramètres sont différents (par exemple, moyenne ou sd d'une distribution normale) ou les deux?
Jeromy Anglim
Une question connexe: stats.stackexchange.com/questions/9311/…
GaBorgulya

Réponses:

15

Je crois que cela nécessite un test de Kolmogorov-Smirnov à deux échantillons , ou similaire. Le test de Kolmogorov – Smirnov à deux échantillons est basé sur la comparaison des différences dans les fonctions de distribution empirique (ECDF) de deux échantillons, ce qui signifie qu'il est sensible à la fois à l'emplacement et à la forme des deux échantillons. Il se généralise également à une forme multivariée.

Ce test se trouve sous différentes formes dans différents packages dans R, donc si vous êtes fondamentalement compétent, tout ce que vous avez à faire est d'installer l'un d'entre eux (par exemple fBasics ) et de l'exécuter sur vos exemples de données.

John L. Taylor
la source
5
Pour R ks.test dans le package "stats" par défaut, vous pouvez effectuer le test KS sans installer de packages supplémentaires.
russellpierce
Dans SAS, le test KS est disponible en proc npar1way. Dans R, en plus de ks.test(), il y a le nortestpackage qui fournit plusieurs autres tests de réglage.
chl
8

Je vais poser la question stupide du consultant. Pourquoi voulez-vous savoir si ces distributions sont différentes d'une manière statistiquement significative?

Est-ce que les données que vous utilisez sont des échantillons représentatifs de populations ou de processus, et vous souhaitez évaluer la preuve que ces populations ou processus diffèrent? Si oui, alors un test statistique vous convient. Mais cela me semble une question étrange.

Ou, voulez-vous savoir si vous devez vraiment vous comporter comme si ces populations ou processus étaient différents, quelle que soit la vérité? Ensuite, vous ferez mieux de déterminer une fonction de perte, idéalement celle qui renvoie des unités qui sont significatives pour vous, et de prédire la perte attendue lorsque vous (a) traitez les populations comme différentes, et (b) les traitez comme les mêmes. Ou vous pouvez choisir un quantile de la distribution des pertes si vous souhaitez adopter une position plus ou moins conservatrice.

Andrew Robinson
la source
Votre ton est un peu sarcastique et condescendant ... mais vous avez raison, je pense que je voulais vraiment savoir si je peux raisonnablement supposer que les deux distributions sont les mêmes.
Jay Stevens
3
Désolé que vous n'aimiez pas mon ton. Si vous voulez savoir si vous pouvez raisonnablement supposer que les deux distributions sont identiques, alors le KS vous induira en erreur, car il teste l'hypothèse nulle que les deux distributions sont les mêmes.
Andrew Robinson
5

Vous pourriez être intéressé à appliquer des méthodes de distribution relative. Appelez un groupe le groupe de référence et l'autre le groupe de comparaison. D'une manière similaire à la construction d'un tracé probabilité-probabilité, vous pouvez construire un CDF / PDF relatif, qui est un rapport des densités. Cette densité relative peut être utilisée pour l'inférence. Si les distributions sont identiques, vous vous attendez à une distribution relative uniforme. Il existe des outils, graphiques et statistiques, pour explorer et examiner les écarts par rapport à l'uniformité.

Un bon point de départ pour mieux comprendre est d' appliquer les méthodes de distribution relative dans R et le package reldist dans R. Pour plus de détails, vous devrez vous référer au livre, Méthodes de distribution relative dans les sciences sociales de Handcock et Morris. Il y a aussi un article des auteurs couvrant les techniques pertinentes.

ars
la source
2

Une mesure de la différence entre deux distributions est le critère de "l'écart moyen maximum", qui mesure essentiellement la différence entre les moyennes empiriques des échantillons des deux distributions dans un espace de Hilbert du noyau reproducteur (RKHS). Consultez cet article "Une méthode du noyau pour les deux exemples de problème" .

ébène1
la source
Cette méthode est la plus robuste à mon avis mais pas bien connue car elle fonctionne aussi bien si vous avez un échantillon fini pour votre distribution (et donc vos distributions d'échantillons ne sont pas entièrement continues). Il fonctionne également avec des distributions multinomiales qui, pour un test KS, sont toujours des recherches actives pour autant que je sache
www3
-1

Je ne sais pas comment utiliser SAS / R / Orange, mais il semble que le type de test dont vous avez besoin soit un test du chi carré .

Suresh Venkatasubramanian
la source
Je pensais que Chi-Sq était principalement pour les données catégoriques (tableaux de contingence) vs continu?
Jay Stevens
1
Hmmm j'aime mieux la réponse au test KS que la mienne!
Suresh Venkatasubramanian
1
Non, ce n'est pas correct.
SmallChess