Je suis assez nouveau dans les statistiques (une poignée de cours Uni de niveau débutant) et je me posais des questions sur l'échantillonnage à partir de distributions inconnues. Plus précisément, si vous n'avez aucune idée de la distribution sous-jacente, existe-t-il un moyen de "garantir" que vous obtenez un échantillon représentatif?
Exemple pour illustrer: disons que vous essayez de comprendre la répartition mondiale de la richesse. Pour tout individu donné, vous pouvez en quelque sorte découvrir leur richesse exacte; mais vous ne pouvez pas "échantillonner" chaque personne sur Terre. Supposons donc que vous échantillonniez n = 1000 personnes au hasard.
Si votre échantillon ne comprenait pas Bill Gates, vous pourriez penser qu'il n'y a pas de milliardaires.
Si votre échantillon incluait Bill Gates, vous pourriez penser que les milliardaires sont plus courants qu'ils ne le sont réellement.
Dans les deux cas, vous ne pouvez pas vraiment dire à quel point les milliardaires sont courants ou rares; vous ne pourrez peut-être même pas savoir s'il en existe.
Existe-t-il un meilleur mécanisme d'échantillonnage pour un cas comme celui-ci?
Comment diriez-vous a priori quelle procédure d'échantillonnage utiliser (et combien d'échantillons sont nécessaires)?
Il me semble que vous devrez peut-être «échantillonner» un énorme pourcentage de la population pour savoir, avec tout ce qui se rapproche d'une certitude raisonnable, comment les milliardaires sont rares ou courants sur la planète, et que cela est dû à la distribution sous-jacente étant un peu difficile travailler avec.
Réponses:
la source
Vous pouvez faire deux choses (séparément ou en combinaison)
Modelez la queue
L'une consiste à modéliser la queue de la distribution à l'aide d'une distribution paramétrique. Les lois sur le pouvoir sont connues pour bien s'adapter à la distribution de la richesse, alors essayez une distribution Pareto. Vous pouvez soit ajuster cette distribution par maximum de vraisemblance, c'est-à-dire en trouvant les paramètres qui représentent le mieux votre échantillon. Ou mieux, vous pouvez mettre un prieur bayésien sur les paramètres et calculer le postérieur complet.
Malheureusement, les lois de puissance sont très sensibles aux paramètres, et sans beaucoup de points de données volumineux dans votre échantillon, il y aura beaucoup d'incertitude sur l'exposant. Le nombre estimé de milliardaires sera sensible à ce paramètre, mais beaucoup moins que la richesse moyenne des milliardaires, donc la situation n'est pas trop mauvaise.
Échantillonnage d'importance
L'autre consiste à changer la façon dont vous collectez votre échantillon. Supposons que vous soupçonnez (comme vous devriez) qu'il y ait plus de milliardaires par habitant à Monaco ou à Zurich qu'à Mogadishiu. Si vous connaissez la population de chacune de ces villes, vous pouvez collecter un plus grand échantillon dans les villes où vous vous attendez à voir plus de milliardaires, et un plus petit dans les autres.
Imaginons que Zurich compte 400 000 personnes et Mogadiscio 1 400 000 et nous souhaitons interroger 9 000 personnes. Nous nous intéressons ici au nombre de millionnaires, pas de milliardaires.
Un échantillon impartial sélectionnerait 2 000 personnes à Zurich et 7 000 à Mogadiscio. Cependant, nous allons biaiser l'échantillon en échantillonnant sept fois plus souvent à Zurich. Nous allons donc «prétendre» que Zurich compte 2 800 000 personnes et nous ajusterons plus tard. Cela signifie que nous interrogerons 6 000 personnes à Zurich au lieu de 2 000 et 4 000 à Mogadiscio.
Disons que nous comptons 21 millionnaires dans notre échantillon de Zurich et seulement 1 dans notre échantillon de Mogadiscio. Puisque nous avons suréchantillonné Zurich 7 fois, nous ne le comptions que pour 3 millionnaires.
Cette procédure diminuera la variance de votre estimateur. Il peut également être utilisé conjointement avec la première méthode, auquel cas vous ajusterez l'échantillonnage d'importance lors de l'ajustement d'une distribution paramétrique.
la source
Je pense qu'une bonne méthode d'échantillonnage est basée sur des connaissances antérieures du système. Dans votre domaine, vous avez des connaissances sur les biais potentiels qui pourraient affecter votre échantillonnage. Si vous n'avez pas cette connaissance, vous pouvez l'acquérir dans la littérature.
Dans votre exemple, vous savez qu'il y a des milliardaires et qu'ils pourraient biaiser votre échantillonnage. Vous pouvez donc décider de stratifier l'échantillonnage par niveau d'éducation, pays, type d'emploi, etc. Il existe plusieurs options.
Essayons avec un autre exemple. Votre objectif est de déterminer l'abondance d'une espèce de souris dans un parc. Dans ce parc, il y a des forêts et des prairies. Par la littérature, vous savez que les souris sont plus abondantes en forêt que les prairies. Vous stratifiez donc votre échantillonnage en fonction de cette caractéristique. Il existe d'autres procédures d'échantillonnage possibles, mais je pense que vos meilleures informations proviendront de la littérature existante.
Et s'il n'y a pas de littérature sur votre domaine? Improbable, mais dans ce contexte, je ferais une pré-étude pour voir quels facteurs doivent être pris en compte pour l'échantillonnage.
la source
Le fait qu'un échantillon soit représentatif ou non n'a rien à voir avec les mesures observées de l'échantillon. Un échantillon est représentatif si chaque ensemble d'unités d'observation a la même probabilité d'être choisi que tout autre ensemble de la même taille. Bien sûr, cela est difficile à faire, sauf si vous pouvez obtenir une énumération complète de votre espace d'échantillonnage. En supposant que vous pouvez obtenir cela (à partir des données des secteurs de recensement, par exemple), un échantillon aléatoire simple sera représentatif.
Peu importe la façon dont vous obtenez votre échantillon, il y aura toujours au moins trois sources d'erreur distinctes à considérer:
erreur d'échantillonnage: par hasard, vous incluez Bill Gates dans votre échantillon représentatif. Les méthodes statistiques, en particulier les largeurs des intervalles de confiance, etc. sont conçues pour y remédier, à condition que vous ayez une connaissance approximative de la répartition à portée de main (par exemple, la normalité, que la répartition des richesses ne possède certainement pas).
biais d'échantillonnage: l'échantillon n'était pas représentatif. Exemple: Bill Gates a un numéro non répertorié, donc votre enquête téléphonique ne pourra jamais le joindre (à moins que vous n'utilisiez quelque chose comme la "numérotation aléatoire"). Il s'agit d'un exemple extrême, mais le biais d'échantillonnage est très répandu. Il est courant de prendre des échantillons sur place ou de commodité: vous échantillonnez les clients du restaurant pour savoir s'ils aiment l'endroit, à quelle fréquence ils y sont allés et s'ils prévoient y retourner. Les clients récurrents sont beaucoup plus susceptibles d'être échantillonnés que les clients ponctuels, et les échantillons de ce type peuvent être gravement biaisés dans leurs attitudes.
biais de réponse: les mesures elles-mêmes sont inexactes. Cela peut être dû à tout, des dysfonctionnements du compteur au mensonge conscient en passant par les effets quantiques (par exemple le principe d'incertitude de Heisenberg).
la source