Et si votre échantillon aléatoire n'est clairement pas représentatif?

28

Que se passe-t-il si vous prenez un échantillon aléatoire et que vous pouvez voir qu'il n'est clairement pas représentatif, comme dans une question récente . Par exemple, que se passe-t-il si la distribution de la population est censée être symétrique autour de 0 et que l'échantillon que vous tirez au hasard présente des observations positives et négatives déséquilibrées et que le déséquilibre est statistiquement significatif, où cela vous mène-t-il? Quelles déclarations raisonnables pouvez-vous faire au sujet de la population sur la base d'un échantillon biaisé? Quelle est la ligne de conduite raisonnable dans une telle situation? Est-ce important quand dans nos recherches nous remarquons ce déséquilibre?

Joel W.
la source
2
Michael, ce problème pourrait se produire une fois sur 20, si nous utilisons la signification statistique comme métrique. Le plus souvent, nous ne savons pas quand nous avons choisi au hasard un échantillon non représentatif parce que nous ne connaissons pas suffisamment la population. Mais lorsque nous savons quelque chose sur la population et que nous remarquons une telle anomalie, que faisons-nous?
Joel W.
3
Oui, la pratique la plus correcte consiste à obtenir un échantillon aléatoire suffisamment grand, comme l'a écrit @MichaelChernick. Cependant, un de mes professeurs me dit qu'il a vérifié par simulation de Monte Carlo que, lorsqu'un chercheur doit augmenter la taille de l'échantillon, il n'est pas si correct d'ajouter simplement des unités statistiques à l'échantillon, mais il faut répéter l'échantillonnage. Sinon, les statistiques peuvent être biaisées (encore une fois!).
this.is.not.a.nick
4
@Michael, je ne comprends pas pourquoi votre affirmation est vraie. Une valeur de p inférieure à 0,05 se produira dans l'hypothèse nulle 5% du temps, quelle que soit la taille de l'échantillon. Alors, comment peut-il être possible que des échantillons plus grands résolvent ce problème? Il me semble que votre recommandation invite implicitement les lecteurs à confondre la taille et la puissance des tests d'hypothèse.
whuber
2
@Michael, que voulez-vous dire que nous devrions collecter plus de données au hasard? Devons-nous espérer tirer au hasard un échantillon biaisé dans l'autre sens? Dans tous les cas, quel nombre de cas supplémentaires devrions-nous tirer? Suggérez-vous que nous fixions un nombre au début ou utilisons une règle d'arrêt? S'il s'agit d'une règle d'arrêt, à quoi pourrait ressembler la règle? Enfin, même si l'échantillon plus grand résultant n'a pas de biais statistiquement significatif, nous savons qu'il est composé de deux échantillons, un avec biais et un sans. Quelles déclarations raisonnables pouvez-vous faire sur la population sur la base d'un échantillon aussi complexe?
Joel W.16
2
@Michael Une autre conclusion est qu'un échantillon très important et très asymétrique indique un problème avec la procédure d'échantillonnage. Si c'est le cas, le manque de symétrie persistera dans un échantillon plus grand.
whuber

Réponses:

7

La réponse donnée par MLS (utiliser l'échantillonnage d'importance) est seulement aussi bonne que les hypothèses que vous pouvez faire sur vos distributions. La principale force du paradigme d'échantillonnage en population finie est qu'il n'est pas paramétrique, car il ne fait aucune hypothèse sur la distribution des données pour faire des inférences (valides) sur les paramètres de population finie.

Une approche pour corriger les déséquilibres des échantillons est appelée post-stratification . Vous devez décomposer l'échantillon en classes non chevauchantes (post-strates), puis repondérer ces classes en fonction des chiffres de population connus. Si votre population est connue pour avoir une médiane de 0, alors vous pouvez repondérer les observations positives et négatives afin que leurs proportions pondérées deviennent 50-50: si vous aviez un SRS malchanceux avec 10 observations négatives et 20 observations positives, vous donneriez la les négatifs le poids de 15/10 = 1,5 et les positifs, 15/20 = 0,75.

Il existe des formes plus subtiles de calibrage de l'échantillon , dans lesquelles vous pouvez calibrer votre échantillon pour satisfaire des contraintes plus générales, telles que la moyenne d'une variable continue égale à la valeur spécifique. La contrainte de symétrie est assez difficile à travailler, bien que cela soit également possible. Peut-être que Jean Opsomer a quelque chose à ce sujet: il a fait beaucoup de travaux d'estimation du noyau pour les données d'enquête.

StasK
la source
Comment la post-stratification se compare-t-elle, logiquement ou statistiquement, au simple rejet de l'échantillon déséquilibré et au prélèvement d'un autre échantillon? (Parfois, le prélèvement de l'échantillon est la partie à forte intensité de main-d'œuvre de la recherche, mais parfois c'est ce qui est fait après avoir prélevé l'échantillon qui est à forte intensité de main-d'œuvre et le prélèvement de l'échantillon nécessite un effort relativement mineur, comme dans la plupart des recherches expérimentales.)
Joel W
2
Je n'ai jamais été dans une situation où le rejet des données est la meilleure réponse, et je ne l'ai jamais vu discuté dans aucun des livres de statistiques de l'enquête. Dans la plupart des statistiques d'enquête, obtenir les données est au moins cinq fois plus cher que n'importe lequel des traitements et analyses de données suivants (sauf probablement pour certaines enquêtes Web bon marché où la collecte de données est presque gratuite). Si vous êtes dans un monde expérimental, vous ne devez pas étiqueter votre article "échantillonnage", et plutôt utiliser "conception d'expérience" à la place.
StasK
Des échantillons aléatoires peuvent être utilisés plutôt que stratifiés car il existe de nombreuses façons possibles de stratifier dans un environnement réel. Il peut arriver qu'après avoir sélectionné deux échantillons aléatoires pour une expérience, vous remarquiez un déséquilibre flagrant. Ensuite, vous êtes coincé entre un rocher et un endroit dur: vivez avec le déséquilibre (par exemple, toutes les personnes âgées dans un groupe, tous les locuteurs non natifs dans un groupe, tous les doctorats dans un groupe, etc.), ou dessinez un nouvel échantillon et affaiblir le lien entre ce que vous avez fait et les hypothèses de toutes les techniques statistiques. La post-stratification semble être du deuxième type.
Joel W.
2

Je suis le membre junior ici, mais je dirais que jeter et recommencer est toujours la meilleure réponse, si vous savez que votre échantillon est significativement non représentatif, et si vous avez une idée de la façon dont l'échantillonnage non représentatif est apparu en premier lieu et comment l'éviter si possible la deuxième fois.

À quoi cela servira-t-il de goûter une deuxième fois si vous vous retrouverez probablement dans le même bateau?

Si la collecte de données à nouveau n'a pas de sens ou est d'un coût prohibitif, vous devez travailler avec ce que vous avez, en essayant de compenser la non-représentativité via la stratification, l'imputation, une modélisation plus sophistiquée, etc. Vous devez clairement noter que vous avez compensé de cette façon, pourquoi vous pensez que c'est nécessaire et pourquoi vous pensez que cela a fonctionné. Ensuite, travaillez l'incertitude résultant de votre rémunération tout au long de votre analyse. (Cela rendra vos conclusions moins sûres, non?)

Si vous ne pouvez pas le faire, vous devez supprimer complètement le projet.

Wayne
la source
Que se passe-t-il si vous ne savez pas pourquoi l'échantillon n'est pas représentatif, avez-vous toujours le droit de le rejeter et de tirer un nouvel échantillon aléatoire? Sinon, pourquoi pas? Supposons également que vous rejetez le premier échantillon et que vous en dessinez un deuxième. Les statistiques inférentielles que vous pourriez calculer sur la base du deuxième échantillon sont-elles inappropriées en raison du premier échantillon rejeté? Par exemple, si vous vous abonnez à l'élimination des échantillons non représentatifs, modifiez-vous la distribution d'échantillonnage sur laquelle votre test statistique est basé? Si oui, rendez-vous plus facile ou plus difficile de trouver une signification statistique?
Joel W.
@Wayne Bonne idée.
Subhash C. Davar
1

Il s'agit d'une réponse partielle qui suppose que nous connaissons à la fois la distribution partir de laquelle a été échantillonné et la vraie distribution (ou souhaitée) . De plus, je suppose que ces distributions sont différentes. Si les échantillons ont effectivement été obtenus par le biais de , mais ils semblent faux: les échantillons sont toujours non biaisés et toute adaptation (comme la suppression des valeurs aberrantes) ajoutera probablement un biais.qpp

Je suppose que vous voulez trouver des statistiques . Par exemple, pourrait être la moyenne de la distribution, auquel cas est la fonction d'identité. Si vous aviez des échantillons obtenus par , vous pouvez simplement utiliser Supposons cependant que vous ne disposiez que d'échantillons obtenus (du même domaine) avec une distribution d'échantillonnage . Ensuite, nous pouvons toujours obtenir une estimation non biaisée de en pondérant chacun des échantillons en fonction de la probabilité relative qu'il se produise sous chaque distribution: sp=E{f(X)|Xp}s(p)f{x1,,xn}p

sp1ni=1nf(xi).
xiqsp
sp1ni=1np(xi)q(xi)f(xi).
La raison pour laquelle cela fonctionne est que comme souhaité. C'est ce qu'on appelle l' échantillonnage d'importance .
E{p(X)q(X)f(X)|Xq}=p(X)f(X)dx,
MLS
la source
Vous dites que l'échantillon n'est pas biaisé et toute tentative de correction de l'échantillon ajoutera un biais. Je suggère que le processus par lequel l'échantillon a été prélevé est sans biais mais, en fait, l'échantillon est biaisé, peut-être sérieusement biaisé. Existe-t-il des moyens d'essayer de corriger le biais important connu qui pourrait introduire relativement peu de biais supplémentaires?
Joel W.
1
Pour un peu ambiguïter la terminologie: je pense au biais comme une propriété de l'attente d'une variable aléatoire. En d'autres termes, si le processus qui recueille les données n'est pas biaisé, il en va de même pour l'échantillon. Cependant, l'échantillon peut toujours être atypique et conduire à des conclusions indésirables. Toute manière générale de résoudre ce problème induit un biais, car vous adaptez la procédure d'échantillonnage (non biaisée). L'approche la moins biaisée est probablement de collecter et d'utiliser de nouveaux échantillons. Une approche légèrement plus biaisée ajouterait ces nouveaux échantillons aux anciens, mais le résultat pourrait être moins variable puisque vous avez plus d'échantillons au total.
MLS
2
@Joel W. Que voulez-vous dire lorsque vous dites que l'échantillon est biaisé? Est-ce l'estimation de la moyenne basée sur l'échantillon qui est biaisée? Toute estimation d'échantillon va différer de la vraie moyenne et certaines peuvent être éloignées. Lors d'un échantillonnage aléatoire, cela est dû à la variance et non au biais. Il n'est pas juste de dire qu'un échantillon est biaisé parce que la distribution de l'échantillon est connue pour être très différente de la distribution de la population. Dans de petits échantillons, beaucoup peuvent sembler non représentatifs pour une raison ou une autre, mais l'échantillonnage aléatoire n'est pas un échantillonnage biaisé.
Michael R. Chernick
1
@Michael, je suis d'accord que nous devons reconnaître et vivre avec une variance aléatoire quand nous le devons. Je demande ce que nous pourrions raisonnablement faire lorsque nous détectons un écart involontaire. Que se passe-t-il si notre échantillon aléatoire s'avère inclure relativement trop de jeunes ou trop de cols bleus, etc., lorsque ces catégories sont pertinentes pour notre recherche? Pour aller encore plus loin, devons-nous vérifier nos échantillons pour voir s'ils sont déséquilibrés de cette manière? Et est-ce important si nous le remarquons avant de poursuivre les recherches avec l'échantillon ou après avoir investi des ressources dans la recherche avec l'échantillon?
Joel W.
1
Le déséquilibre covariable est très important. S'il existe dans un échantillon, un modèle de régression peut être utilisé pour l'ajuster. Vance Berger a écrit un livre sur ce sujet que j'ai probablement cité précédemment sur ce site. Voici un lien amazon vers une description du livre. amazon.com/Selection-Covariate-Imbalances-Randomized-Statistics/…
Michael R. Chernick