Quel est le problème avec (une) pseudo-randomisation

23

Je suis tombé sur une étude dans laquelle des patients, tous âgés de plus de 50 ans, étaient pseudo-randomisés par année de naissance. Si l'année de naissance était un nombre pair, soins habituels, si un nombre impair, intervention.

C'est plus facile à mettre en œuvre, c'est plus difficile à renverser (c'est facile de vérifier quel traitement un patient aurait dû recevoir), c'est facile à retenir (la mission a duré plusieurs années). Mais quand même, je n'aime pas ça, j'ai l'impression qu'une bonne randomisation aurait été mieux. Mais je ne peux pas expliquer pourquoi.

Ai-je tort de ressentir cela, ou y a-t-il une bonne raison de préférer la «vraie» randomisation?

Jeremy Miles
la source
1
Bienvenue sur le site! Heureux de voir votre publication ici.
Andy W
Par les réponses ci-dessus, je me sens mieux de "randomiser" par jour de naissance! Jour impair au traitement, jour pair pour contrôler ... Adalberto
AADF
6
@Adalberto Cela manque le point principal, à savoir que toute procédure définitive et non randomisée d'attribution de sujets à des groupes ne peut être assurée d'avoir les propriétés souhaitables d'une procédure randomisée. Supposons que vous passiez des années sur une telle étude seulement par la suite pour qu'un examinateur pointe une confusion inattendue mais forte entre le traitement et la parité du jour de naissance? Parce que nous ne pouvons pas anticiper toutes ces confusions, nous évitons le problème au moyen d'une assignation aléatoire.
whuber

Réponses:

28

Vous avez raison d'être sceptique. En général, il faut utiliser la randomisation «réelle», car généralement on n'a pas toutes les connaissances sur les facteurs pertinents (non observables). Si l'un de ces inobservables est corrélé avec l'âge impair ou pair, il est également corrélé avec le fait qu'ils aient ou non reçu un traitement. Si tel est le cas, nous ne pouvons pas identifier l'effet du traitement: les effets que nous observons pourraient être dus au traitement ou au (x) facteur (s) non observé (s).

Ce n'est pas un problème avec la randomisation réelle, où nous n'attendons aucune dépendance entre le traitement et les inobservables (bien que, bien sûr, pour les petits échantillons, il puisse être là).

Pour construire une histoire expliquant pourquoi cette procédure de randomisation pourrait être un problème, supposons que l'étude ne comprenait que des sujets âgés de 17/18 ans lorsque, disons, la guerre du Vietnam a commencé. Avec 17, il n'y avait aucune chance d'être rédigé (corrigez-moi si je me trompe), alors qu'il y avait cette chance à 18. En supposant que la chance n'était pas négligeable et que l'expérience de la guerre change les gens, cela implique que, des années plus tard, ces deux groupes sont différents, même s'ils ne sont séparés que d'un an. Donc, peut-être que le traitement (médicament) semble ne pas fonctionner, mais parce que seul le groupe avec des vétérans du Vietnam l'a reçu, cela peut en fait être dû au fait qu'il ne fonctionne pas sur les personnes atteintes du SSPT (ou d'autres facteurs liés à être un ancien combattant). En d'autres termes, vous avez besoin que les deux groupes (traitement et contrôle) soient identiques, à l'exception du traitement, pour identifier l'effet du traitement.

Donc, à moins que vous ne puissiez exclure qu'il n'y ait pas de différences non observées entre les groupes (mais comment faire cela s'il n'est pas observé?), Une véritable randomisation est préférable.

Sans nom
la source
Merci. Bel exemple. (J'ai oublié de l'appeler pseudo-randomisation, je l'ai édité dans la question).
Jeremy Miles
2
(+1) En lisant la question, le Vietnam a été le premier exemple qui m'est immédiatement venu à l'esprit. C'était amusant de voir que vous aviez adopté la même approche. Je suppose que c'est le choix le plus évident étant donné les âges indiqués des sujets, bien que les âges du début au milieu des années 60 soient un peu plus proches.
Cardinal
Excuses pour le ping hors sujet: il y a une suggestion sur Meta pour faire de [randomized-experiment] un synonyme de balise [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Vous avez suffisamment de réputation dans cette balise pour voter pour cette suggestion ici: stats.stackexchange.com/tags/random-allocation/synonymes - il faut maintenant 4 votes positifs pour passer. Si vous n'êtes pas d'accord avec la proposition, pensez à commenter Meta pour expliquer pourquoi. Je supprimerai bientôt ce commentaire. À votre santé.
amibe dit Réintégrer Monica
18

C'est un bon exercice de défendre de temps à autre des points de vue contraires, alors permettez-moi de commencer par proposer quelques raisons en faveur de cette forme de pseudo-randomisation. Ils sont, principalement, qu'il est peu différent de toute autre forme d' échantillonnage systématique , comme l'obtention d'échantillons de milieux environnementaux aux points d'une grille sur le terrain ou l'échantillonnage de tous les autres arbres dans un verger, et donc cet échantillonnage pourrait bénéficier d'avantages comparables .

L'analogie ici est parfaite: l' âge a été "quadrillé" par année à partir d'une origine de zéro et l'affectation aux groupes a alterné le long de cette grille (unidimensionnelle). Certains avantages de cette approche sont de garantir une dispersion large et uniforme de l'échantillon à travers le champ ou le verger (ou les âges, dans ce cas), ce qui aide à égaliser les influences liées à l'emplacement (ou au temps). Cela peut être particulièrement utile lorsque la théorie suggère que l'emplacement est le facteur prédominant de variation de la réponse. De plus, à l'exception de très petits échantillons, l'analyse des données comme siil s'agissait d'un simple échantillon aléatoire qui introduit relativement peu d'erreurs. En outre, une certaine randomisation est possible: sur le terrain, nous pouvons choisir au hasard l'origine et l'orientation de la grille. Dans le cas présent, nous pouvons au moins randomiser si les années paires sont des témoins ou des sujets de traitement.

Un autre avantage de l'échantillonnage quadrillé est de détecter une variation localisée. Sur le terrain, il s'agirait de «poches» de réponses inhabituelles. Statistiquement, nous pouvons les considérer comme des manifestations de corrélation spatiale. Dans la situation actuelle, s'il y a une chance qu'une tranche d'âge relativement étroite subisse des réponses inhabituelles, le plan quadrillé est un excellent choix, car un plan purement aléatoire peut par hasard contenir de grands écarts d'âge dans l'un des groupes. (Mais une meilleure conception pourrait être de stratifier: utiliser la parité d'âge pour former deux strates analytiques , puis, indépendamment dans chaque strate, randomiser les patients en groupes de contrôle et de traitement.)

9à associer à des facteurs importants pour l'expérience. Cela rend la préoccupation de la question moins qu'hypothétique: elle est réelle. À ce stade, les réponses précédentes dans ce fil présentent avec compétence les réflexions supplémentaires que je voudrais faire, je vais donc m'arrêter et vous inviter à les relire.

whuber
la source
(+1) Notamment pour le contre-argument mis en place.
Cardinal
13

Je suis d'accord que l'exemple que vous donnez est assez anodin mais ...

Si les agents impliqués (soit la personne chargée de l'intervention, soit les personnes bénéficiant de l'intervention) prennent connaissance du programme d'affectation, ils peuvent en profiter. Une telle auto-sélection devrait être assez évidente pourquoi elle est problématique dans la plupart des conceptions expérimentales.

Un exemple que je connais en criminologie est le suivant; L'expérience visait à tester l'effet dissuasif d'une nuit en prison après un différend domestique par rapport à la simple demande à l'agresseur de partir pour la nuit. Les officiers ont reçu un livret de feuilles, et la couleur de la feuille actuelle sur le dessus était destinée à identifier quel traitement le perp. dans l'incident particulier était censé recevoir.

Ce qui s'est finalement produit, c'est que les agents ont délibérément désobéi au plan d'étude et ont choisi une feuille basée sur les préférences personnelles pour ce qui devait être fait au perp. Il n'est pas exagéré de soupçonner qu'un fudging similaire d'années est au moins possible dans votre exemple.

Andy W
la source
Bel exemple, merci, mais une partie du raisonnement était que le fudging était beaucoup plus difficile - ils ne pouvaient pas prétendre que la feuille était (disons) jaune, parce que je peux aller vérifier la date de naissance et voir si elles étaient correctement attribuées.
Jeremy Miles
3
Je suis d'accord avec @ JeremyMiles, c'est juste une autre raison pour les études randomisées en double aveugle. C'est simplement un argument intentionnel contre la pseudo-randomisation - qu'il est plus facile de contourner le traitement prévu que la randomisation réelle. (Mon exemple n'est en fait pas un exemple de pseudo-randomisation, mais il illustre succinctement le point.)
Andy W
Eh bien, cela dépend de la façon dont la (vraie) randomisation a été effectuée - les personnes impliquées dans l'étude l'ont fait en partie pour éviter les problèmes de subversion. Si vous utilisez la randomisation réelle, vous avez besoin d'une bonne tenue de registres pour vous assurer que la personne qui détermine la randomisation communique avec la personne qui délivre le traitement et que la personne qui délivre fait la bonne chose. Avec votre exemple, s'ils avaient utilisé le numéro de maison (disons), les agents auraient pu avoir plus de mal à renverser, même si ce n'était pas aléatoire.
Jeremy Miles
1
Excuses pour le ping hors sujet: il y a une suggestion sur Meta pour faire de [randomized-experiment] un synonyme de balise [random-allocation] ( stats.meta.stackexchange.com/a/4651 ). Vous avez suffisamment de réputation dans cette balise pour voter pour cette suggestion ici: stats.stackexchange.com/tags/random-allocation/synonymes - il faut maintenant 4 votes positifs pour passer. Si vous n'êtes pas d'accord avec la proposition, pensez à commenter Meta pour expliquer pourquoi. Je supprimerai bientôt ce commentaire. À votre santé.
amibe dit Réintégrer Monica
0

La randomisation complète basée sur la distribution aléatoire n'est pas prévisible, dans votre cas, il est connu que le cas soit attribué à l'intervention ou au contrôle avant la confirmation de l'admissibilité.

Ayat
la source