«Chaque personne portant un t-shirt bleu» est-elle un échantillon systématique?

17

J'enseigne une classe de statistiques d'introduction et passais en revue les types d'échantillonnage, y compris l'échantillonnage systématique où vous échantillonnez chaque kième individu ou objet.

Un élève a demandé si l'échantillonnage de chaque personne ayant une caractéristique particulière accomplirait la même chose.

Par exemple, l'échantillonnage de chaque personne avec un t-shirt bleu serait-il suffisamment aléatoire et fournirait-il une représentation suffisante de l'ensemble de la population? Au moins, si vous posez une question autre que "Quelle couleur de t-shirt préférez-vous porter?" Mon sentiment est non, mais je me demandais si quelqu'un ici avait des idées à ce sujet.

fureur
la source
12
Non. Si vous viviez à Glasgow, en Écosse, alors la plupart des gens qui portent un "t-shirt bleu" seraient probablement des partisans des Rangers . Vous manqueriez des supporters celtiques . À Glasgow, l' équipe de football serait un mandataire pour la religion.
csgillespie
1
@csgillespie Magnifique exemple!
whuber
En outre, vous pourriez avoir plus de garçons que de filles car dans la culture occidentale, le bleu est associé au mâle
Roland Kofler
Les T-shirts colorés sont plus chers que les T-shirts blancs, et tous les modèles ne fonctionnent pas pour toutes les couleurs. Ainsi, même si cela peut sembler innocent, même parmi les porteurs de T-shirts, vous pouvez sélectionner des personnes plus riches, ou des consommateurs plus impulsifs, ou des personnes qui favorisent un parti politique particulier.
Douglas Zare
Il y a aussi une association entre l'âge et le port de t-shirts, entre le contexte culturel et le port de t-shirts, etc.
Glen_b -Reinstate Monica

Réponses:

22

La réponse à votre question est en général "non". Il est notoirement difficile d'obtenir un échantillon aléatoire d'une population (en particulier des humains). En conditionnant une caractéristique particulière, vous n'obtenez par définition aucun échantillon aléatoire. Combien de biais cela introduit est une toute autre question.

À titre d'exemple un peu absurde, vous ne voudriez pas goûter de cette façon à, disons, un match de football entre les Bears et les Packers, même si votre population était des "fans de football". (Les fans d'ours peuvent avoir des caractéristiques différentes de celles des autres fans de football, même si la quantité qui vous intéresse peut ne pas sembler directement liée au football.)

Il existe de nombreux exemples célèbres de biais cachés résultant de l'obtention d'échantillons de cette manière. Par exemple, lors des récentes élections aux États-Unis au cours desquelles des sondages par téléphone ont été menés, on pense que les personnes possédant uniquement un téléphone portable et sans ligne fixe sont (peut-être de façon spectaculaire) sous-représentées dans l'échantillon. Étant donné que ces personnes ont également tendance à être, dans l'ensemble, plus jeunes que celles qui disposent de lignes fixes, un échantillon biaisé est obtenu. De plus, les jeunes ont des convictions politiques très différentes de celles des populations plus âgées. Il s'agit donc d'un exemple simple d'un cas où, même lorsque l'échantillon n'était pas intentionnellement conditionné à une caractéristique particulière, il en était toujours ainsi. Et même si le sondage n'avait rien à voir avec la caractéristique de conditionnement soit (c.-à-d. que l'on utilise ou non une ligne fixe), l'effet de la caractéristique de conditionnement sur les conclusions du sondage était significatif, à la fois statistiquement et pratiquement.

cardinal
la source
6

Tant que la distribution de la caractéristique que vous utilisez pour sélectionner des unités dans l'échantillon est orthogonale à la distribution de la caractéristique de la population que vous souhaitez estimer, vous pouvez obtenir une estimation non biaisée de la quantité de population en conditionnant la sélection sur celle-ci. L'échantillon n'est pas strictement un échantillon aléatoire . Mais les gens ont tendance à ignorer que les échantillons aléatoires sont bons parce que la variable aléatoire utilisée pour sélectionner les unités dans l'échantillon est orthogonale à la distribution de la caractéristique de la population, et non parce qu'elle est aléatoire.

Pensez simplement à dessiner au hasard à partir d'un Bernoulli avec P (invlogit (x_i)) où x_i dans [-inf, inf] est une caractéristique de l'unité i telle que Cov (x, y)! = 0, et y est la caractéristique de population dont signifie que vous voulez estimer. L'échantillon est "aléatoire" dans le sens où vous randomisez avant de sélectionner l'échantillon. Mais l'échantillon ne donne pas d'estimation non biaisée de la moyenne de la population de y.

Ce dont vous avez besoin, c'est de conditionner la sélection en échantillon sur une variable aussi bonne qu'assignée au hasard . C'est-à-dire qu'elle est orthogonale à la variable dont dépend la quantité d'intérêt. La randomisation est bonne car elle assure l'orthogonalité, pas à cause de la randomisation elle-même.

PAS
la source
4
C'est exact, mais comment sauriez-vous si elle était orthogonale à moins d'avoir un échantillon vraiment aléatoire?
Peter Flom - Réintègre Monica