Test statistique pour savoir si deux échantillons sont prélevés dans la même population?

30

Disons que j'ai deux échantillons. Si je veux savoir s'ils sont issus de différentes populations, je peux effectuer un test t. Mais disons que je veux tester si les échantillons proviennent de la même population. Comment est-que quelqu'un peut faire ça? Autrement dit, comment puis-je calculer la probabilité statistique que ces deux échantillons proviennent de la même population?

user1566200
la source
1
Veuillez expliquer - aussi quantitativement que possible - ce que vous entendez par «pareil». Cela aiderait également à clarifier ce que vous entendez par «condition».
whuber
Un test comme un Kolmogorov-Smirnov à deux échantillons (pas la seule possibilité; avec les hypothèses habituelles, le test t teste la même chose, comme vous le constatez) peut tester si les distributions de population sont différentes (mais l'échec du rejet ne le fait pas '' t signifie qu'ils sont en fait les mêmes). Cependant, aucun test ne peut vous dire si deux distributions qui ne sont pas trop différentes sont en fait de la même population , plutôt que deux populations différentes avec des distributions similaires. Cela devrait provenir d'hypothèses ou d'une autre enquête. ... ctd
Glen_b -Reinstate Monica
3
ctd ... De même, les tests ne peuvent même pas vous dire que les distributions sont identiques, car elles peuvent différer de manière triviale. Vous pouvez rechercher sur «test d'équivalence» ou «test d'équivalence», sur lequel vous devriez obtenir pas mal de résultats ici, ou sur google.
Glen_b -Reinstate Monica

Réponses:

20

Les tests qui comparent les distributions sont des tests d'exclusion. Ils partent de l'hypothèse nulle que les 2 populations sont identiques, puis essaient de rejeter cette hypothèse. Nous ne pouvons jamais prouver que le nul est vrai, il suffit de le rejeter, de sorte que ces tests ne peuvent pas vraiment être utilisés pour montrer que 2 échantillons proviennent de la même population (ou de populations identiques).

C'est parce qu'il pourrait y avoir des différences mineures dans les distributions (ce qui signifie qu'elles ne sont pas identiques), mais si petites que les tests ne peuvent pas vraiment trouver la différence.

Considérons 2 distributions, la première est uniforme de 0 à 1, la seconde est un mélange de 2 uniformes, donc elle est 1 entre 0 et 0,999, et également 1 entre 9,999 et 10 (0 ailleurs). Il est donc clair que ces distributions sont différentes (si la différence est significative est une autre question), mais si vous prenez un échantillon de 50 dans chaque (100 au total), il y a plus de 90% de chances que vous ne voyiez que des valeurs comprises entre 0 et 0,999 et être incapable de voir une réelle différence.

Il existe des moyens de faire ce qu'on appelle des tests d'équivalence lorsque vous demandez si les 2 distributions / populations sont équivalentes, mais vous devez définir ce que vous considérez comme équivalent. C'est généralement qu'une certaine mesure de la différence se situe dans une plage donnée, c'est-à-dire que la différence dans les 2 moyennes est inférieure à 5% de la moyenne des 2 moyennes, ou que la statistique KS est inférieure à un seuil donné, etc. Si vous peut alors calculer un intervalle de confiance pour la statistique de différence (la différence de moyenne pourrait simplement être l'intervalle de confiance t, le bootstrap, la simulation ou d'autres méthodes peuvent être nécessaires pour d'autres statistiques). Si tout l'intervalle de confiance tombe dans la "région d'équivalence", alors nous considérons les 2 populations / distributions comme "équivalentes".

La partie difficile consiste à déterminer quelle devrait être la région d'équivalence.

Greg Snow
la source
2
Un test d'hypothèse nulle ne peut jamais fournir la preuve de l'hypothèse nulle, c'est vrai. La sélection du modèle, bayésien ou basé sur un certain "critère" (AIC, BIC) pourrait cependant indiquer qu'un modèle nul (distributions identiques) est une meilleure description des données qu'un modèle alternatif (distribution différente). Tout cela sous un tas d'hypothèses bien sûr.
A. Donda
6

http://en.wikipedia.org/wiki/Kolmogorov%E2%80%93Smirnov_test

En supposant que vos valeurs d'échantillon proviennent de distributions continues, je suggérerais le test de Kolmogorov-Smirnov. Il peut être utilisé pour tester si deux échantillons proviennent de distributions différentes (c'est ainsi que j'interprète votre utilisation de la population) en fonction de leurs distributions empiriques associées.

Directement à partir de Wikipedia:

La distribution nulle de cette statistique est calculée sous l'hypothèse nulle que les échantillons sont tirés de la même distribution (dans le cas à deux échantillons)

La fonction ks.test dans R peut être utilisée pour ce test.

Bien qu'il soit vrai que le kstest ne teste pas l'homogénéité, je dirais que si vous ne parvenez pas à rejeter avec un échantillon suffisamment grand (un test à haute puissance), vous pouvez affirmer que les différences ne sont pas pratiquement significatives. Vous pourriez en déduire que si des différences existent, elles ne sont probablement pas significatives (là encore, en supposant un échantillon de grande taille). Vous ne pouvez pas conclure qu'ils appartiennent à la même population que d'autres l'ont correctement déclaré. Tout cela étant dit, je voudrais généralement examiner graphiquement les deux échantillons pour la similitude.

Underminer
la source
6
Je doute que le test KS puisse être utilisé pour montrer l'équivalence distributionnelle.
Michael M
@MichaelMayer c'est exactement ça. OP s'intéresse à un test d'homogénéité ... qui présente de nombreux problèmes méthodologiques sous-jacents. KS de l' hétérogénéité a aussi ses problèmes: pratiquement, il va rejeter dans les grands échantillons , peu importe si les populations sont pratiquement identiques dans tous les aspects. Cela montre simplement que les tests, et par conséquent les valeurs de p, sont mieux conçus comme des mesures de la taille de l'échantillon que de la signification statistique.
AdamO
@AdamO Oui, mais si vous avez de gros échantillons et que vous ne les rejetez pas, je serais convaincu que les populations sont pratiquement identiques. Pour autant que je sache, il n'y a pas de théorie pour étayer cela, mais par expérience, sachant que le KS pour l'hétérogénéité peut détecter des différences infimes avec une grande taille d'échantillon peut vous permettre d'utiliser un test de grand échantillon échoué comme une déclaration de facto de pratiquement populations identiques. Ma réponse répond-elle à la question «calculer la probabilité statistique que ces deux échantillons soient prélevés dans la même population»? Certainement pas.
Underminer
Que puis-je faire si mes points sont bidimensionnels ? Autrement dit, j'ai deux échantillons de points bidimensionnels, et je veux savoir s'ils proviennent de distributions distinctes.
Becko
Le test KS ne fonctionne qu'avec une distribution prédéfinie, pas à partir d'une distribution avec des paramètres estimés à partir des données.
qwr
2

Vous pouvez utiliser une «fonction de décalage» qui vérifie si les 2 distributions diffèrent à chaque décile. Bien que ce soit techniquement un test pour savoir s'ils sont issus de populations différentes plutôt que identiques, si les distributions ne diffèrent sur aucun des déciles, vous pouvez être raisonnablement sûr qu'ils proviennent de la même population, surtout si la taille des groupes est importante.

Je voudrais également visualiser les 2 groupes: superposer leurs distributions et voir si elles se ressemblent, ou mieux encore dessiner quelques milliers d'échantillons bootstrap de chaque groupe et tracer ceux-ci , car cela vous donnerait une idée s'ils proviennent du même la population en particulier si la population en question n'est pas normalement distribuée pour votre variable donnée.

Richie
la source