Que se passe-t-il si vous prenez un échantillon aléatoire et que vous pouvez voir qu'il n'est clairement pas représentatif, comme dans une question récente . Par exemple, que se passe-t-il si la distribution de la population est censée être symétrique autour de 0 et que l'échantillon que vous tirez au hasard présente des observations positives et négatives déséquilibrées et que le déséquilibre est statistiquement significatif, où cela vous mène-t-il? Quelles déclarations raisonnables pouvez-vous faire au sujet de la population sur la base d'un échantillon biaisé? Quelle est la ligne de conduite raisonnable dans une telle situation? Est-ce important quand dans nos recherches nous remarquons ce déséquilibre?
28
Réponses:
La réponse donnée par MLS (utiliser l'échantillonnage d'importance) est seulement aussi bonne que les hypothèses que vous pouvez faire sur vos distributions. La principale force du paradigme d'échantillonnage en population finie est qu'il n'est pas paramétrique, car il ne fait aucune hypothèse sur la distribution des données pour faire des inférences (valides) sur les paramètres de population finie.
Une approche pour corriger les déséquilibres des échantillons est appelée post-stratification . Vous devez décomposer l'échantillon en classes non chevauchantes (post-strates), puis repondérer ces classes en fonction des chiffres de population connus. Si votre population est connue pour avoir une médiane de 0, alors vous pouvez repondérer les observations positives et négatives afin que leurs proportions pondérées deviennent 50-50: si vous aviez un SRS malchanceux avec 10 observations négatives et 20 observations positives, vous donneriez la les négatifs le poids de 15/10 = 1,5 et les positifs, 15/20 = 0,75.
Il existe des formes plus subtiles de calibrage de l'échantillon , dans lesquelles vous pouvez calibrer votre échantillon pour satisfaire des contraintes plus générales, telles que la moyenne d'une variable continue égale à la valeur spécifique. La contrainte de symétrie est assez difficile à travailler, bien que cela soit également possible. Peut-être que Jean Opsomer a quelque chose à ce sujet: il a fait beaucoup de travaux d'estimation du noyau pour les données d'enquête.
la source
Je suis le membre junior ici, mais je dirais que jeter et recommencer est toujours la meilleure réponse, si vous savez que votre échantillon est significativement non représentatif, et si vous avez une idée de la façon dont l'échantillonnage non représentatif est apparu en premier lieu et comment l'éviter si possible la deuxième fois.
À quoi cela servira-t-il de goûter une deuxième fois si vous vous retrouverez probablement dans le même bateau?
Si la collecte de données à nouveau n'a pas de sens ou est d'un coût prohibitif, vous devez travailler avec ce que vous avez, en essayant de compenser la non-représentativité via la stratification, l'imputation, une modélisation plus sophistiquée, etc. Vous devez clairement noter que vous avez compensé de cette façon, pourquoi vous pensez que c'est nécessaire et pourquoi vous pensez que cela a fonctionné. Ensuite, travaillez l'incertitude résultant de votre rémunération tout au long de votre analyse. (Cela rendra vos conclusions moins sûres, non?)
Si vous ne pouvez pas le faire, vous devez supprimer complètement le projet.
la source
Il s'agit d'une réponse partielle qui suppose que nous connaissons à la fois la distribution partir de laquelle a été échantillonné et la vraie distribution (ou souhaitée) . De plus, je suppose que ces distributions sont différentes. Si les échantillons ont effectivement été obtenus par le biais de , mais ils semblent faux: les échantillons sont toujours non biaisés et toute adaptation (comme la suppression des valeurs aberrantes) ajoutera probablement un biais.q p p
Je suppose que vous voulez trouver des statistiques . Par exemple, pourrait être la moyenne de la distribution, auquel cas est la fonction d'identité. Si vous aviez des échantillons obtenus par , vous pouvez simplement utiliser Supposons cependant que vous ne disposiez que d'échantillons obtenus (du même domaine) avec une distribution d'échantillonnage . Ensuite, nous pouvons toujours obtenir une estimation non biaisée de en pondérant chacun des échantillons en fonction de la probabilité relative qu'il se produise sous chaque distribution:sp=E{f(X)|X∼p} s(p) f {x1,…,xn} p
la source