Disons que j'ai deux échantillons. Si je veux savoir s'ils sont issus de différentes populations, je peux effectuer un test t. Mais disons que je veux tester si les échantillons proviennent de la même population. Comment est-que quelqu'un peut faire ça? Autrement dit, comment puis-je calculer la probabilité statistique que ces deux échantillons proviennent de la même population?
statistical-significance
user1566200
la source
la source
Réponses:
Les tests qui comparent les distributions sont des tests d'exclusion. Ils partent de l'hypothèse nulle que les 2 populations sont identiques, puis essaient de rejeter cette hypothèse. Nous ne pouvons jamais prouver que le nul est vrai, il suffit de le rejeter, de sorte que ces tests ne peuvent pas vraiment être utilisés pour montrer que 2 échantillons proviennent de la même population (ou de populations identiques).
C'est parce qu'il pourrait y avoir des différences mineures dans les distributions (ce qui signifie qu'elles ne sont pas identiques), mais si petites que les tests ne peuvent pas vraiment trouver la différence.
Considérons 2 distributions, la première est uniforme de 0 à 1, la seconde est un mélange de 2 uniformes, donc elle est 1 entre 0 et 0,999, et également 1 entre 9,999 et 10 (0 ailleurs). Il est donc clair que ces distributions sont différentes (si la différence est significative est une autre question), mais si vous prenez un échantillon de 50 dans chaque (100 au total), il y a plus de 90% de chances que vous ne voyiez que des valeurs comprises entre 0 et 0,999 et être incapable de voir une réelle différence.
Il existe des moyens de faire ce qu'on appelle des tests d'équivalence lorsque vous demandez si les 2 distributions / populations sont équivalentes, mais vous devez définir ce que vous considérez comme équivalent. C'est généralement qu'une certaine mesure de la différence se situe dans une plage donnée, c'est-à-dire que la différence dans les 2 moyennes est inférieure à 5% de la moyenne des 2 moyennes, ou que la statistique KS est inférieure à un seuil donné, etc. Si vous peut alors calculer un intervalle de confiance pour la statistique de différence (la différence de moyenne pourrait simplement être l'intervalle de confiance t, le bootstrap, la simulation ou d'autres méthodes peuvent être nécessaires pour d'autres statistiques). Si tout l'intervalle de confiance tombe dans la "région d'équivalence", alors nous considérons les 2 populations / distributions comme "équivalentes".
La partie difficile consiste à déterminer quelle devrait être la région d'équivalence.
la source
http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test
En supposant que vos valeurs d'échantillon proviennent de distributions continues, je suggérerais le test de Kolmogorov-Smirnov. Il peut être utilisé pour tester si deux échantillons proviennent de distributions différentes (c'est ainsi que j'interprète votre utilisation de la population) en fonction de leurs distributions empiriques associées.
Directement à partir de Wikipedia:
La fonction ks.test dans R peut être utilisée pour ce test.
Bien qu'il soit vrai que le kstest ne teste pas l'homogénéité, je dirais que si vous ne parvenez pas à rejeter avec un échantillon suffisamment grand (un test à haute puissance), vous pouvez affirmer que les différences ne sont pas pratiquement significatives. Vous pourriez en déduire que si des différences existent, elles ne sont probablement pas significatives (là encore, en supposant un échantillon de grande taille). Vous ne pouvez pas conclure qu'ils appartiennent à la même population que d'autres l'ont correctement déclaré. Tout cela étant dit, je voudrais généralement examiner graphiquement les deux échantillons pour la similitude.
la source
Vous pouvez utiliser une «fonction de décalage» qui vérifie si les 2 distributions diffèrent à chaque décile. Bien que ce soit techniquement un test pour savoir s'ils sont issus de populations différentes plutôt que identiques, si les distributions ne diffèrent sur aucun des déciles, vous pouvez être raisonnablement sûr qu'ils proviennent de la même population, surtout si la taille des groupes est importante.
Je voudrais également visualiser les 2 groupes: superposer leurs distributions et voir si elles se ressemblent, ou mieux encore dessiner quelques milliers d'échantillons bootstrap de chaque groupe et tracer ceux-ci , car cela vous donnerait une idée s'ils proviennent du même la population en particulier si la population en question n'est pas normalement distribuée pour votre variable donnée.
la source