Randomisation d'un échantillon non aléatoire

10

Je suis toujours un peu surpris de voir des publicités psychologiques pour participer à des études expérimentales. Bien sûr, les personnes qui répondent à ces publicités ne sont pas échantillonnées au hasard et sont donc une population auto-sélectionnée.

Parce que l'on sait que la randomisation résout le problème d'auto-sélection, je me demandais si la randomisation d'un échantillon non aléatoire avait réellement changé quoi que ce soit.

Qu'est-ce que tu penses ? Et aussi, que devons-nous faire de toutes ces expériences psychologiques basées sur un échantillon fortement auto-sélectionné?

giac
la source

Réponses:

10

La randomisation dans un échantillon non aléatoire peut toujours montrer qu'un effet n'est pas raisonnablement expliqué par une variation aléatoire.

Par exemple, imaginez que nous avons une population avec deux sous-groupes non reconnus (avec des caractéristiques quelque peu différentes *) de taille à peu près égale, mais votre échantillon n'est pas aléatoire, ce qui donne une répartition 80/20. Imaginons 2 groupes de traitement de taille égale. La randomisation (au moins avec des tailles d'échantillon décentes) tendra à donner près de cette répartition 80/20 dans chaque groupe, de sorte que les effets du traitement sont dus au traitement, plutôt qu'à une répartition inégale des groupes hétérogènes aux traitements.

* conduisant à des références différentes, par exemple

Le problème survient lorsque vous souhaitez étendre l'inférence à une population cible autre que celle de votre échantillon (les auto-sélecteurs); cela nécessite des hypothèses / un argument pour lequel vous ne disposez d'aucune preuve (comme supposer que les différences de traitement seront cohérentes pour tous les sous-ensembles de la population).

Pour une situation similaire, imaginez tester un médicament contre l'hypertension uniquement sur des hommes, par rapport à un traitement standard et un placebo. Supposons que les hommes sont correctement randomisés dans le groupe de traitement. Un effet de traitement sera réel dans le sens où il décrit vraiment un effet chez l'homme. La difficulté viendra lorsque l'on tentera d'étendre cette inférence aux femmes .

Donc, s'ils sont correctement menés et randomisés en dehors du recrutement, un effet significatif observé sera ce qu'il semble, mais il s'appliquera à ce que vous avez réellement échantillonné, pas nécessairement à ce que votre objectif souhaité était - le franchissement de l'écart entre les deux peut exiger un argument prudent; un tel argument est souvent absent.

Quand j'étais étudiant, il était assez courant que des expériences de psychologie soient menées sur des étudiants en psychologie, qui devaient se porter volontaires pour un certain nombre d'heures de telles expériences (cela peut toujours être le cas mais je n'ai pas de contact régulier avec les psychologues). qui font des expériences). Avec la randomisation au traitement, les inférences peuvent avoir été valides (selon ce qui a été fait) mais s'appliqueraient à la population locale des étudiants de premier cycle en psychologie autosélectionnés (en ce qu'ils choisissent généralement les expériences auxquelles s'inscrire), qui sont très loin de un échantillon aléatoire de l'ensemble de la population.

Glen_b -Reinstate Monica
la source
Le recrutement des étudiants de premier cycle pauvres est toujours la pratique. Qu'on s'attende à ce qu'un étudiant en psychologie participe à de telles études est une terrible violation de l'intégrité de la recherche, l'OMI.
StasK
@StasK: Pourquoi? Je les trouvais plutôt intéressants, et j'imagine que leur participation donnerait une perspective utile aux étudiants en psychologie.
Scortchi - Réintégrer Monica
1
Oui, le modèle "intro psych pool" est toujours bien vivant. @StasK, pour le rendre un peu moins coercitif, les étudiants sont seulement invités à participer à quelques expériences et ils peuvent choisir lesquels. Je pense que nous avons également un moyen pour les étudiants de se retirer de tout.
Matt Krause
2
Ces jours-ci, les gens se déchaînent également avec Mechanical Turk d'Amazon, Google Consumer Surveys et quelques autres choses «cloud». Ceux-ci vous donnent théoriquement accès à d'autres groupes de sujets, mais il y a aussi beaucoup de problèmes (les "conditions" sont beaucoup plus variables, les sujets peuvent être moins motivés et vous n'avez aucun moyen réel de savoir s'ils sont qui ils disent) ...). Les étudiants de premier cycle sont là, assez motivés pour faire l'expérience et souvent prêts à travailler pour pas cher.
Matt Krause
@MattKrause: De mon temps, vous seriez entré dans une tombola pour une bouteille de vin - il n'y a jamais eu de pénurie de bénévoles.
Scortchi - Réintégrer Monica
6

Parce que l'on sait que la randomisation résout le problème d'auto-sélection, je me demandais si la randomisation d'un échantillon non aléatoire avait réellement changé quoi que ce soit.

Bref, non. Pensez-y de cette façon: vous avez une urne avec 100 boules noires et 100 boules blanches. Vous en dégustez 90 boules noires et 10 boules blanches. L'échantillonnage aléatoire de ce sous-échantillon ne vous permettra pas d'inférer sans biais sur l'urne elle-même.

Et aussi, que devons-nous faire de toutes ces expériences psychologiques basées sur un échantillon fortement auto-sélectionné?

Les gens conviennent que l'échantillonnage non aléatoire est un problème. Mais combien d'un problème est aussi une question de votre "théorie" du mécanisme qui vous intéresse. Si votre hypothèse concerne un mécanisme qui devrait être fondamentalement le même pour tous les humains (c'est-à-dire éprouver une sensation de gel lorsqu'il est plongé dans de la glace) eau), la sélection non aléatoire importe peu. Malheureusement, ce n'est souvent pas ce qui nous intéresse.

abaumann
la source
Les psychologues posent des questions comme "Si j'essaie de casser une balle en la jetant contre le mur plutôt qu'en la mettant sur une table et en la frappant avec un marteau, quelle procédure est la plus susceptible de la diviser?" Ils ne tentent pas l'inférence sur le nombre de boules de chaque couleur, ils tentent une inférence sur le mode de rupture par rapport à la randomisation vers ce mode.
StasK
Pas nécessairement, Stas. Dans certains cas (par exemple l'effet Stroop), l'objectif est de généraliser à un mécanisme cognitif inhérent à tous les humains. Même si nous comparons des traitements, la randomisation intra-échantillon ne permettra pas une inférence non biaisée à la population (ce qui nous intéresse).
abaumann
1

Il existe une technique conçue pour traiter les problèmes que vous mentionnez, connue sous le nom de Bootstrapping. Le bootstrap est une approche où vous générez de nouveaux échantillons synthétiques en puisant dans votre pool d'échantillons réel avec remplacement. Vous effectuez ensuite des statistiques sur chacun de ces pools d'échantillons synthétiques et comparez les statistiques entre les ensembles.

Cela a un fort avantage de vous permettre d'utiliser un grand nombre d'outils supplémentaires dans vos statistiques car ces échantillons synthétiques proviennent d'une distribution connue. Vous pouvez ensuite déterminer dans quelle mesure vos estimateurs sont capables de gérer ces cas synthétiques. Si vous trouvez que les estimateurs pour tous vos échantillons synthétiques convergent bien vers le même résultat, les hypothèses de bootstrapping vous permettent de déduire que vos estimateurs, lorsqu'ils sont appliqués à l'échantillon complet, fournissent de bonnes estimations pour la population inconnue. Si, d'autre part, vous estimez que vos estimateurs donnent des résultats très différents d'un ensemble d'échantillons synthétiques à un ensemble d'échantillons synthétiques, vous devez déduire que vos estimateurs, lorsqu'ils sont appliqués à l'échantillon complet, peuvent ne pas fournir une très bonne estimation pour la population inconnue.

Cette approche d'amorçage peut être utilisée pour valider si la randomisation de votre échantillon non aléatoire est suffisante. Cela ne peut pas le prouver, bien sûr, mais il a été utilisé comme un outil pour améliorer la crédibilité en revérifiant votre hypothèse selon laquelle votre échantillonnage aléatoire est suffisamment aléatoire.

Cort Ammon
la source
2
Le bootstrap suppose que votre échantillon est très similaire à la population. Le bootstrap est inutile si votre échantillon n'est pas représentatif de la population. Par conséquent, je ne sais pas comment le démarrage peut résoudre le problème des échantillons non aléatoires.
Hotaka