J'ai de la difficulté à comprendre l'interprétation des 2 échantillons de test KS et la différence avec un test t régulier entre 2 groupes.
Disons que j'ai des hommes et des femmes qui font une tâche et que je recueille des scores de cette tâche. Mon objectif ultime est de déterminer si les hommes et les femmes accomplissent différemment cette tâche
Donc une chose que je pourrais faire est de faire un test entre les 2 groupes. Une autre chose que je pourrais faire est de calculer l'ECDF pour les hommes et les femmes, de les tracer et d'effectuer le test KS à 2 échantillons. J'obtiendrais quelque chose comme ceci:
Test KS
L'hypothèse nulle pour le test KS est que les 2 ensembles de distributions de score continues proviennent de la même population
Lors de la réalisation du test KS, j'obtiens: D = 0,18888, p-value = 0,04742
Tout d'abord, je veux vérifier que mon interprétation des résultats est correcte. Ici, je rejetterais l'hypothèse nulle et dirais que les distributions des scores masculins et féminins proviennent de populations différentes. En d'autres termes, la distribution des scores masculins et féminins est différente l'une de l'autre.
Plus précisément, les hommes ont tendance à avoir une probabilité plus élevée d'obtenir des scores plus faibles pour cette tâche, et c'est la différence entre les 2 sexes, comme j'interprète à partir de l'intrigue
T-test
Maintenant au test testera la différence entre les moyennes masculines et féminines sur la variable de score.
Imaginons le cas où la performance masculine est pire que celle des femmes dans cette tâche. Dans ce cas, la distribution des scores masculins sera centrée autour d'une moyenne basse, tandis que la distribution des scores féminins sera centrée autour d'une moyenne élevée. Ce scénario serait conforme à l'intrigue ci-dessus, car les hommes auront une probabilité plus élevée d'obtenir des scores inférieurs
Si le test t s'avère significatif, je conclurais que les femmes obtiennent, en moyenne, un score significativement plus élevé que les hommes. Ou en termes de population, les scores féminins sont tirés d'une population dont la moyenne est supérieure à la population masculine, ce qui semble très similaire à la conclusion KS selon laquelle ils proviennent de populations différentes.
Quelle est la différence?
Donc, la conclusion que je tirerais à la fois dans les cas de test KS et t est la même. Les mâles obtiennent de mauvais résultats par rapport aux femelles. Quel est donc l'avantage d'utiliser un test par rapport à l'autre? Y a-t-il de nouvelles connaissances que vous pouvez acquérir en utilisant le test KS?
Selon moi, les mâles dont la distribution est centrée autour d'une moyenne faible et les femelles centrées autour d'une moyenne élevée sont à l'origine du test t significatif. Mais par ce même fait , les hommes auront une probabilité plus élevée de marquer des valeurs plus faibles, ce qui ferait ressembler l'intrigue ci-dessus et donnerait un test KS significatif. Ainsi, les résultats des deux tests ont la même cause sous-jacente, mais on pourrait peut-être affirmer qu'un test KS prend en compte plus que les moyens des distributions et prend également en compte la forme de la distribution, mais est-il possible d'analyser la cause du test KS significatif à partir des seuls résultats du test?
Alors, quelle est la valeur de l'exécution d'un test KS au cours du test? Et supposons que je puisse répondre aux hypothèses du test t pour cette question
Réponses:
Comme exemple de la raison pour laquelle vous souhaitez utiliser les deux échantillons de test de Kolmogorov-Smirnov:
Imaginez que les moyennes de la population étaient similaires mais les variances étaient très différentes. Le test de Kolmogorov-Smirnov pourrait capter cette différence, mais pas le test t.
Ou imaginez que les distributions ont des moyennes et des SD similaires, mais les mâles ont une distribution bimodale (rouge) tandis que les femelles (bleues) n'en ont pas:
Les hommes et les femmes ont-ils des performances différentes? Oui - les mâles ont tendance à marquer quelque part autour de 7,5-8 ou 12,5-13, tandis que les femelles ont plus souvent tendance à marquer plus vers le milieu (près de 10 environ) mais sont beaucoup moins regroupées autour de cette valeur que les deux valeurs les mâles ont tendance à marquer près de.
Ainsi, le Kolmogorov-Smirnov peut trouver des différences de distribution beaucoup plus générales que le test t.
la source