J'ai deux groupes de données. Chacun avec une distribution différente de plusieurs variables. J'essaie de déterminer si les distributions de ces deux groupes sont différentes d'une manière statistiquement significative. J'ai les données sous forme brute et regroupées dans des catégories plus faciles à traiter avec des décomptes de fréquence dans chacune.
Quels tests / procédures / méthodes dois-je utiliser pour déterminer si ces deux groupes sont ou non significativement différents et comment dois-je procéder en SAS ou R (ou Orange)?
distributions
statistical-significance
Jay Stevens
la source
la source
Réponses:
Je crois que cela nécessite un test de Kolmogorov-Smirnov à deux échantillons , ou similaire. Le test de Kolmogorov – Smirnov à deux échantillons est basé sur la comparaison des différences dans les fonctions de distribution empirique (ECDF) de deux échantillons, ce qui signifie qu'il est sensible à la fois à l'emplacement et à la forme des deux échantillons. Il se généralise également à une forme multivariée.
Ce test se trouve sous différentes formes dans différents packages dans R, donc si vous êtes fondamentalement compétent, tout ce que vous avez à faire est d'installer l'un d'entre eux (par exemple fBasics ) et de l'exécuter sur vos exemples de données.
la source
proc npar1way
. Dans R, en plus deks.test()
, il y a lenortest
package qui fournit plusieurs autres tests de réglage.Je vais poser la question stupide du consultant. Pourquoi voulez-vous savoir si ces distributions sont différentes d'une manière statistiquement significative?
Est-ce que les données que vous utilisez sont des échantillons représentatifs de populations ou de processus, et vous souhaitez évaluer la preuve que ces populations ou processus diffèrent? Si oui, alors un test statistique vous convient. Mais cela me semble une question étrange.
Ou, voulez-vous savoir si vous devez vraiment vous comporter comme si ces populations ou processus étaient différents, quelle que soit la vérité? Ensuite, vous ferez mieux de déterminer une fonction de perte, idéalement celle qui renvoie des unités qui sont significatives pour vous, et de prédire la perte attendue lorsque vous (a) traitez les populations comme différentes, et (b) les traitez comme les mêmes. Ou vous pouvez choisir un quantile de la distribution des pertes si vous souhaitez adopter une position plus ou moins conservatrice.
la source
Vous pourriez être intéressé à appliquer des méthodes de distribution relative. Appelez un groupe le groupe de référence et l'autre le groupe de comparaison. D'une manière similaire à la construction d'un tracé probabilité-probabilité, vous pouvez construire un CDF / PDF relatif, qui est un rapport des densités. Cette densité relative peut être utilisée pour l'inférence. Si les distributions sont identiques, vous vous attendez à une distribution relative uniforme. Il existe des outils, graphiques et statistiques, pour explorer et examiner les écarts par rapport à l'uniformité.
Un bon point de départ pour mieux comprendre est d' appliquer les méthodes de distribution relative dans R et le package reldist dans R. Pour plus de détails, vous devrez vous référer au livre, Méthodes de distribution relative dans les sciences sociales de Handcock et Morris. Il y a aussi un article des auteurs couvrant les techniques pertinentes.
la source
Une mesure de la différence entre deux distributions est le critère de "l'écart moyen maximum", qui mesure essentiellement la différence entre les moyennes empiriques des échantillons des deux distributions dans un espace de Hilbert du noyau reproducteur (RKHS). Consultez cet article "Une méthode du noyau pour les deux exemples de problème" .
la source
Je ne sais pas comment utiliser SAS / R / Orange, mais il semble que le type de test dont vous avez besoin soit un test du chi carré .
la source