Je suis toujours un peu surpris de voir des publicités psychologiques pour participer à des études expérimentales. Bien sûr, les personnes qui répondent à ces publicités ne sont pas échantillonnées au hasard et sont donc une population auto-sélectionnée.
Parce que l'on sait que la randomisation résout le problème d'auto-sélection, je me demandais si la randomisation d'un échantillon non aléatoire avait réellement changé quoi que ce soit.
Qu'est-ce que tu penses ? Et aussi, que devons-nous faire de toutes ces expériences psychologiques basées sur un échantillon fortement auto-sélectionné?
Réponses:
La randomisation dans un échantillon non aléatoire peut toujours montrer qu'un effet n'est pas raisonnablement expliqué par une variation aléatoire.
Par exemple, imaginez que nous avons une population avec deux sous-groupes non reconnus (avec des caractéristiques quelque peu différentes *) de taille à peu près égale, mais votre échantillon n'est pas aléatoire, ce qui donne une répartition 80/20. Imaginons 2 groupes de traitement de taille égale. La randomisation (au moins avec des tailles d'échantillon décentes) tendra à donner près de cette répartition 80/20 dans chaque groupe, de sorte que les effets du traitement sont dus au traitement, plutôt qu'à une répartition inégale des groupes hétérogènes aux traitements.
* conduisant à des références différentes, par exemple
Le problème survient lorsque vous souhaitez étendre l'inférence à une population cible autre que celle de votre échantillon (les auto-sélecteurs); cela nécessite des hypothèses / un argument pour lequel vous ne disposez d'aucune preuve (comme supposer que les différences de traitement seront cohérentes pour tous les sous-ensembles de la population).
Pour une situation similaire, imaginez tester un médicament contre l'hypertension uniquement sur des hommes, par rapport à un traitement standard et un placebo. Supposons que les hommes sont correctement randomisés dans le groupe de traitement. Un effet de traitement sera réel dans le sens où il décrit vraiment un effet chez l'homme. La difficulté viendra lorsque l'on tentera d'étendre cette inférence aux femmes .
Donc, s'ils sont correctement menés et randomisés en dehors du recrutement, un effet significatif observé sera ce qu'il semble, mais il s'appliquera à ce que vous avez réellement échantillonné, pas nécessairement à ce que votre objectif souhaité était - le franchissement de l'écart entre les deux peut exiger un argument prudent; un tel argument est souvent absent.
Quand j'étais étudiant, il était assez courant que des expériences de psychologie soient menées sur des étudiants en psychologie, qui devaient se porter volontaires pour un certain nombre d'heures de telles expériences (cela peut toujours être le cas mais je n'ai pas de contact régulier avec les psychologues). qui font des expériences). Avec la randomisation au traitement, les inférences peuvent avoir été valides (selon ce qui a été fait) mais s'appliqueraient à la population locale des étudiants de premier cycle en psychologie autosélectionnés (en ce qu'ils choisissent généralement les expériences auxquelles s'inscrire), qui sont très loin de un échantillon aléatoire de l'ensemble de la population.
la source
Bref, non. Pensez-y de cette façon: vous avez une urne avec 100 boules noires et 100 boules blanches. Vous en dégustez 90 boules noires et 10 boules blanches. L'échantillonnage aléatoire de ce sous-échantillon ne vous permettra pas d'inférer sans biais sur l'urne elle-même.
Les gens conviennent que l'échantillonnage non aléatoire est un problème. Mais combien d'un problème est aussi une question de votre "théorie" du mécanisme qui vous intéresse. Si votre hypothèse concerne un mécanisme qui devrait être fondamentalement le même pour tous les humains (c'est-à-dire éprouver une sensation de gel lorsqu'il est plongé dans de la glace) eau), la sélection non aléatoire importe peu. Malheureusement, ce n'est souvent pas ce qui nous intéresse.
la source
Il existe une technique conçue pour traiter les problèmes que vous mentionnez, connue sous le nom de Bootstrapping. Le bootstrap est une approche où vous générez de nouveaux échantillons synthétiques en puisant dans votre pool d'échantillons réel avec remplacement. Vous effectuez ensuite des statistiques sur chacun de ces pools d'échantillons synthétiques et comparez les statistiques entre les ensembles.
Cela a un fort avantage de vous permettre d'utiliser un grand nombre d'outils supplémentaires dans vos statistiques car ces échantillons synthétiques proviennent d'une distribution connue. Vous pouvez ensuite déterminer dans quelle mesure vos estimateurs sont capables de gérer ces cas synthétiques. Si vous trouvez que les estimateurs pour tous vos échantillons synthétiques convergent bien vers le même résultat, les hypothèses de bootstrapping vous permettent de déduire que vos estimateurs, lorsqu'ils sont appliqués à l'échantillon complet, fournissent de bonnes estimations pour la population inconnue. Si, d'autre part, vous estimez que vos estimateurs donnent des résultats très différents d'un ensemble d'échantillons synthétiques à un ensemble d'échantillons synthétiques, vous devez déduire que vos estimateurs, lorsqu'ils sont appliqués à l'échantillon complet, peuvent ne pas fournir une très bonne estimation pour la population inconnue.
Cette approche d'amorçage peut être utilisée pour valider si la randomisation de votre échantillon non aléatoire est suffisante. Cela ne peut pas le prouver, bien sûr, mais il a été utilisé comme un outil pour améliorer la crédibilité en revérifiant votre hypothèse selon laquelle votre échantillonnage aléatoire est suffisamment aléatoire.
la source