Lors de l'apprentissage du cours d'échantillonnage, je rencontre les deux énoncés suivants:
1) L'erreur d'échantillonnage entraîne principalement une variabilité, les erreurs de non-échantillonnage entraînent un biais.
2) En raison d'une erreur de non-échantillonnage, un échantillon est souvent plus précis qu'un RECENSEMENT.
Je ne sais pas comment comprendre ces deux déclarations. Quelle est la logique sous-jacente pour obtenir ces deux déclarations?
estimation
sampling
survey
bias
user785099
la source
la source
Réponses:
Un échantillon pourrait être plus précis qu'un recensement (tenté) si le fait que l'exercice soit un recensement augmente le biais de l'erreur non due à l'échantillonnage. Cela pourrait se produire, par exemple, si le recensement génère une campagne politique défavorable prônant la non-réponse (quelque chose de moins susceptible d'arriver à un échantillon). À moins que cela ne se produise, je ne vois pas pourquoi un échantillon devrait comporter moins d'erreur de non-échantillonnage qu'un recensement; et par définition, il aura plus d'erreur d'échantillonnage. Donc, mis à part des circonstances assez inhabituelles, je dirais qu'un recensement sera plus précis qu'un échantillon.
Considérons une source commune d'erreur de non-échantillonnage - la non-réponse systématique, par exemple par un groupe sociodémographique particulier. Si les personnes du groupe X sont susceptibles de refuser le recensement, elles sont tout aussi susceptibles de refuser l'échantillon. Même avec poststratification échantillonnage de poids les réponses de ces personnes du groupe X qui vous ne Persuader répondre à vos questions, vous avez encore un problème parce que ceux qui pourraient être le segment très de X qui sont pro-enquêtes. Il n'y a pas d'autre moyen de contourner ce problème que d'être aussi prudent que possible avec la conception de votre instrument et votre méthode de livraison.
En passant, cela attire l'attention sur un problème possible qui pourrait rendre une tentative de recensement moins précise qu'un échantillon. Les échantillons ont systématiquement une pondération poststratification par rapport à la population, ce qui atténue les problèmes de biais liés à des problèmes tels que celui de mon paragraphe ci-dessus. Une tentative de recensement qui n'obtient pas un retour à 100% n'est qu'un échantillon important et devrait en principe être soumise au même traitement; mais parce qu'il est considéré comme un «recensement» (plutôt qu'une tentative de recensement), cela peut être négligé. Ce recensement pourrait donc être moins précis que l'échantillon correctement pondéré. Mais dans ce cas, le problème est la technique de traitement analytique (ou l'omission de), pas quelque chose d'intrinsèque étant une tentative de recensement.
L'efficacité est une autre affaire - comme le dit Michelle, un échantillon bien conduit sera plus efficace qu'un recensement, et il pourrait très bien avoir une précision suffisante à des fins pratiques.
la source
Je pense qu'il existe des situations pratiques où un échantillon peut être plus précis. Par exemple, nous avons fait une étude dans une ville d'un pays en développement avec beaucoup de gens vivant dans des endroits non enregistrés et des gens qui vont et viennent constamment et hésitent à répondre. Essayer de faire un recensement aurait exigé un effort herculéen et, compte tenu de nos ressources, cela aurait dû être fait en quelques mois, lorsque les gens allaient et venaient. Avec un échantillon, nous pourrions passer plus de temps à nous assurer que nous nous rapprochions le plus possible de la réponse complète - car nous pourrions expliquer ce que nous faisions - et nous pourrions le faire sur une période beaucoup plus courte, ce qui éliminerait le problème. de personnes entrant et sortant de la ville.
Je pense donc que la réponse dépend davantage de la logistique de ce que vous faites et des diverses sources d'erreur non dues à l'échantillonnage.
En fait, une autre source était que notre enquête était complexe et que nous devions former les enquêteurs, et qu'il serait très difficile de trouver et de financer suffisamment d'enquêteurs formables dans ce pays.
la source
Lors de l'échantillonnage des humains pour les enquêtes, les échantillons souffrent souvent à la fois d' une erreur d'échantillonnage (nous obtenons uniquement des estimations) et d' une erreur de non-échantillonnage (par exemple, les personnes refusant de répondre à leur enquête, et non l'échantillonnage à la base de sondage dont on a besoin en raison de considérations pratiques telles que le coût, ou incapacité à identifier la population avec précision afin de tirer l'échantillon). Fait correctement, avec des taux de réponse élevés, un échantillon est plus efficace qu'un recensement. Mais il est incorrect de supposer qu'aucun échantillon ne contient d'erreur de non-échantillonnage.
la source
Je pense que la clé est dans la réponse de Peter Ellis: "tenté". Lorsque vous effectuez un échantillonnage correctement, vous transpirez les détails de la non-réponse, déterminez les strates et les recherchez, etc. Lorsque vous décidez de faire un recensement, il est facile d'ignorer ces problèmes, car vous obtenez «tout le monde». Le problème est que vous n'obtenez probablement pas tout le monde, mais vous ne pensez pas à qui vous n'obtenez pas réellement.
Il y a aussi des problèmes statistiques avec des échantillons extrêmement grands (en proportion de la population échantillonnée). Je ne suis pas assez sophistiqué pour les comprendre, mais au minimum vous avez des problèmes avec les calculs de variance. (Des packages comme R
survey
compensent de telles choses dans de grandes sous-populations d'une enquête, et c'est là que j'ai appris cela pour la première fois.)En tant que problème secondaire, si l'erreur non liée à l'échantillon inclut des problèmes dus au contrôle de la qualité à différentes étapes du processus, disposer de beaucoup plus de données (recensement) rendrait beaucoup plus difficile le niveau de contrôle de la qualité que vous auriez (avec le même ressources) sur un plus petit ensemble de données (échantillon).
Imaginez que vous disposiez des ressources (financières et humaines) que le US Census Bureau a utilisées pour un recensement, mais que vous ne faisiez qu'une enquête auprès de 1 000 adultes choisis au hasard. Je pense que vous auriez un bien meilleur contrôle de la qualité et une bien meilleure analyse des problèmes impliqués et des données elles-mêmes.
la source
Je pensais que la raison pour laquelle l'échantillonnage peut être (n'est pas) plus précise que le recensement avait en fait une composante qui est attribuable à la nature d'un recensement par rapport à un échantillon, et qui peut être attribuée comme la cause d'un recensement ayant potentiellement un biais plus important (évidemment non-échantillonnage, par définition): dans un recensement, le nombre d'habitants est généralement inconnu. Il est donc beaucoup plus difficile de minimiser ou de contrôler le biais de non-réponse qu'avec un échantillon de taille connue.
la source