Les échantillons non aléatoires peuvent-ils être analysés à l'aide de tests statistiques standard?

24

De nombreuses études cliniques sont basées sur des échantillons non aléatoires. Cependant, la plupart des tests standard (par exemple tests t, ANOVA, régression linéaire, régression logistique) sont basés sur l'hypothèse que les échantillons contiennent des "nombres aléatoires". Les résultats sont-ils valables si ces échantillons non aléatoires ont été analysés par des tests standard? Merci.

KuJ
la source

Réponses:

20

Il existe deux modèles généraux de test. Le premier, basé sur l'hypothèse d'un échantillonnage aléatoire d'une population, est généralement appelé le «modèle de population».

Par exemple, pour le test t à deux échantillons indépendants, nous supposons que les deux groupes que nous voulons comparer sont des échantillons aléatoires des populations respectives. En supposant que les distributions des scores au sein des deux groupes sont normalement distribuées dans la population, nous pouvons alors dériver analytiquement la distribution d'échantillonnage de la statistique de test (c'est-à-dire pour la statistique t). L'idée est que si nous répétions ce processus (en tirant au hasard deux échantillons des populations respectives) un nombre infini de fois (bien sûr, nous ne le faisons pas réellement), nous obtiendrions cette distribution d'échantillonnage pour la statistique de test.

Un autre modèle de test est le "modèle de randomisation". Ici, nous n'avons pas à recourir à un échantillonnage aléatoire. Au lieu de cela, nous obtenons une distribution de randomisation par permutations de nos échantillons.

Par exemple, pour le test t, vous avez vos deux échantillons (pas nécessairement obtenus par échantillonnage aléatoire). Maintenant, s'il n'y a en effet aucune différence entre ces deux groupes, alors si une personne particulière "appartient" réellement au groupe 1 ou au groupe 2 est arbitraire. Donc, ce que nous pouvons faire, c'est de permuter encore et encore l'affectation des groupes, en notant à chaque fois dans quelle mesure les moyens des deux groupes sont séparés. De cette façon, nous obtenons une distribution d'échantillonnage empiriquement. Nous pouvons ensuite comparer la distance entre les deux moyennes dans les échantillons originaux (avant de commencer à remanier les appartenances au groupe) et si cette différence est «extrême» (c'est-à-dire qu'elle tombe dans la queue de la distribution d'échantillonnage dérivée empiriquement), alors nous concluons l'appartenance à un groupe n'est pas arbitraire et il existe en effet une différence entre les deux groupes.

Dans de nombreuses situations, les deux approches aboutissent en fait à la même conclusion. D'une certaine manière, l'approche basée sur le modèle de population peut être considérée comme une approximation du test de randomisation. Fait intéressant, Fisher est celui qui a proposé le modèle de randomisation et a suggéré qu'il devrait être la base de nos inférences (puisque la plupart des échantillons ne sont pas obtenus par échantillonnage aléatoire).

Un bel article décrivant la différence entre les deux approches est:

Ernst, MD (2004). Méthodes de permutation: une base pour l'inférence exacte. Statistical Science, 19 (4), 676-685 (lien) .

Un autre article qui fournit un bon résumé et suggère que l'approche de randomisation devrait être la base de nos inférences:

Ludbrook, J. et Dudley, H. (1998). Pourquoi les tests de permutation sont supérieurs aux tests t et F dans la recherche biomédicale. American Statistician, 52 (2), 127-132 (lien) .

EDIT: Je dois également ajouter qu'il est courant de calculer la même statistique de test lors de l'utilisation de l'approche de randomisation que sous le modèle de population. Ainsi, par exemple, pour tester la différence de moyennes entre deux groupes, on calculerait la statistique t habituelle pour toutes les permutations possibles des appartenances au groupe (donnant la distribution d'échantillonnage dérivée empiriquement sous l'hypothèse nulle) et ensuite on vérifierait l'extrême la statistique t pour l'appartenance au groupe d'origine est sous cette distribution.

Wolfgang
la source
8

Votre question est très bonne, mais elle n'a pas de réponse simple.

La plupart des tests comme ceux que vous mentionnez sont basés sur l'hypothèse qu'un échantillon est un échantillon aléatoire, car un échantillon aléatoire est susceptible d'être représentatif de la population échantillonnée. Si l'hypothèse est invalide, toute interprétation des résultats doit en tenir compte. Lorsque l'échantillon est très non représentatif de la population, les résultats sont susceptibles d'être trompeurs. Lorsque l'échantillon est représentatif bien qu'il ne soit pas aléatoire, les résultats seront parfaitement corrects.

Le niveau suivant de la question consiste alors à se demander comment on peut décider si le caractère non aléatoire importe dans un cas particulier. Je ne peux pas répondre à cette question ;-)

Michael Lew
la source
5

Vous posez une question très générale, donc la réponse ne peut pas convenir à tous les cas. Cependant, je peux clarifier. Les tests statistiques concernent généralement la distribution observée par rapport à une distribution hypothétique (distribution dite nulle ou hypothèse nulle; ou, dans certains cas, une distribution alternative). Les échantillons peuvent être non aléatoires, mais le test administré est appliqué à une certaine valeur obtenue à partir des échantillons. Si cette variable peut avoir des propriétés stochastiques, sa distribution est comparée à une autre distribution. Ce qui importe alors est de savoir si la statistique de test de l'échantillon serait valable pour une autre population d'intérêt et si les hypothèses concernant la distribution alternative ou nulle sont pertinentes pour l'autre population d'intérêt.

Itérateur
la source