Pourquoi prétend-on qu'un échantillon est souvent plus précis qu'un recensement?

13

Lors de l'apprentissage du cours d'échantillonnage, je rencontre les deux énoncés suivants:

1) L'erreur d'échantillonnage entraîne principalement une variabilité, les erreurs de non-échantillonnage entraînent un biais.

2) En raison d'une erreur de non-échantillonnage, un échantillon est souvent plus précis qu'un RECENSEMENT.

Je ne sais pas comment comprendre ces deux déclarations. Quelle est la logique sous-jacente pour obtenir ces deux déclarations?

user785099
la source
5
Un vrai recensement ou une tentative de recensement ?
cardinal

Réponses:

16

Un échantillon pourrait être plus précis qu'un recensement (tenté) si le fait que l'exercice soit un recensement augmente le biais de l'erreur non due à l'échantillonnage. Cela pourrait se produire, par exemple, si le recensement génère une campagne politique défavorable prônant la non-réponse (quelque chose de moins susceptible d'arriver à un échantillon). À moins que cela ne se produise, je ne vois pas pourquoi un échantillon devrait comporter moins d'erreur de non-échantillonnage qu'un recensement; et par définition, il aura plus d'erreur d'échantillonnage. Donc, mis à part des circonstances assez inhabituelles, je dirais qu'un recensement sera plus précis qu'un échantillon.

Considérons une source commune d'erreur de non-échantillonnage - la non-réponse systématique, par exemple par un groupe sociodémographique particulier. Si les personnes du groupe X sont susceptibles de refuser le recensement, elles sont tout aussi susceptibles de refuser l'échantillon. Même avec poststratification échantillonnage de poids les réponses de ces personnes du groupe X qui vous ne Persuader répondre à vos questions, vous avez encore un problème parce que ceux qui pourraient être le segment très de X qui sont pro-enquêtes. Il n'y a pas d'autre moyen de contourner ce problème que d'être aussi prudent que possible avec la conception de votre instrument et votre méthode de livraison.

En passant, cela attire l'attention sur un problème possible qui pourrait rendre une tentative de recensement moins précise qu'un échantillon. Les échantillons ont systématiquement une pondération poststratification par rapport à la population, ce qui atténue les problèmes de biais liés à des problèmes tels que celui de mon paragraphe ci-dessus. Une tentative de recensement qui n'obtient pas un retour à 100% n'est qu'un échantillon important et devrait en principe être soumise au même traitement; mais parce qu'il est considéré comme un «recensement» (plutôt qu'une tentative de recensement), cela peut être négligé. Ce recensement pourrait donc être moins précis que l'échantillon correctement pondéré. Mais dans ce cas, le problème est la technique de traitement analytique (ou l'omission de), pas quelque chose d'intrinsèque étant une tentative de recensement.

L'efficacité est une autre affaire - comme le dit Michelle, un échantillon bien conduit sera plus efficace qu'un recensement, et il pourrait très bien avoir une précision suffisante à des fins pratiques.

Peter Ellis
la source
1
+1 Cela reflète un effort réfléchi et informatif pour comprendre la question et ce qui la motive.
whuber
Je pense que la différence entre un échantillon et un recensement incomplet est plus qu'une simple propension à pondérer les réponses dans un échantillon. Après tout, les chiffres de pondération doivent provenir de quelque part - un recensement ou un échantillonnage de meilleure qualité.
Jonathan
Je voudrais vraiment souligner la capacité de minimiser le biais de non-réponse dans un échantillon. Très peu de recensements ont la capacité de s'attaquer efficacement au biais de non-réponse - même les recensements américains éprouvent des difficultés. Les seuls qui peuvent bien le faire sont peut-être les enquêtes de satisfaction des employés. Il est beaucoup plus rentable de rechercher la non-réponse dans une enquête échantillonnée.
Jonathan
Dans un recensement, il peut être (sera) coûteux de contrôler la qualité de chaque entretien / ...! Si souvent, la qualité des données sera meilleure dans un échantillon que dans un recensement.
kjetil b halvorsen
5

Je pense qu'il existe des situations pratiques où un échantillon peut être plus précis. Par exemple, nous avons fait une étude dans une ville d'un pays en développement avec beaucoup de gens vivant dans des endroits non enregistrés et des gens qui vont et viennent constamment et hésitent à répondre. Essayer de faire un recensement aurait exigé un effort herculéen et, compte tenu de nos ressources, cela aurait dû être fait en quelques mois, lorsque les gens allaient et venaient. Avec un échantillon, nous pourrions passer plus de temps à nous assurer que nous nous rapprochions le plus possible de la réponse complète - car nous pourrions expliquer ce que nous faisions - et nous pourrions le faire sur une période beaucoup plus courte, ce qui éliminerait le problème. de personnes entrant et sortant de la ville.

Je pense donc que la réponse dépend davantage de la logistique de ce que vous faites et des diverses sources d'erreur non dues à l'échantillonnage.

En fait, une autre source était que notre enquête était complexe et que nous devions former les enquêteurs, et qu'il serait très difficile de trouver et de financer suffisamment d'enquêteurs formables dans ce pays.

Dan
la source
5

Lors de l'échantillonnage des humains pour les enquêtes, les échantillons souffrent souvent à la fois d' une erreur d'échantillonnage (nous obtenons uniquement des estimations) et d' une erreur de non-échantillonnage (par exemple, les personnes refusant de répondre à leur enquête, et non l'échantillonnage à la base de sondage dont on a besoin en raison de considérations pratiques telles que le coût, ou incapacité à identifier la population avec précision afin de tirer l'échantillon). Fait correctement, avec des taux de réponse élevés, un échantillon est plus efficace qu'un recensement. Mais il est incorrect de supposer qu'aucun échantillon ne contient d'erreur de non-échantillonnage.

Michelle
la source
+1. Merci pour votre réponse, Michelle, et bienvenue dans notre communauté!
whuber
1
Salut whuber, c'est agréable d'être ici. Merci pour l'accueil. :)
Michelle
1
@Michelle Juste une petite correction. L'erreur d'échantillonnage est une erreur qui résulte de la non-sélection de la population entière - c'est-à-dire une erreur due à l'utilisation d'un échantillon pour déduire les caractéristiques de la population. L'erreur non due à l'échantillonnage est tout le reste, y compris la non-réponse, le défaut de créer une base de sondage adéquate, les erreurs de mesure, etc.
Brett
3

Je pense que la clé est dans la réponse de Peter Ellis: "tenté". Lorsque vous effectuez un échantillonnage correctement, vous transpirez les détails de la non-réponse, déterminez les strates et les recherchez, etc. Lorsque vous décidez de faire un recensement, il est facile d'ignorer ces problèmes, car vous obtenez «tout le monde». Le problème est que vous n'obtenez probablement pas tout le monde, mais vous ne pensez pas à qui vous n'obtenez pas réellement.

Il y a aussi des problèmes statistiques avec des échantillons extrêmement grands (en proportion de la population échantillonnée). Je ne suis pas assez sophistiqué pour les comprendre, mais au minimum vous avez des problèmes avec les calculs de variance. (Des packages comme R surveycompensent de telles choses dans de grandes sous-populations d'une enquête, et c'est là que j'ai appris cela pour la première fois.)

En tant que problème secondaire, si l'erreur non liée à l'échantillon inclut des problèmes dus au contrôle de la qualité à différentes étapes du processus, disposer de beaucoup plus de données (recensement) rendrait beaucoup plus difficile le niveau de contrôle de la qualité que vous auriez (avec le même ressources) sur un plus petit ensemble de données (échantillon).

Imaginez que vous disposiez des ressources (financières et humaines) que le US Census Bureau a utilisées pour un recensement, mais que vous ne faisiez qu'une enquête auprès de 1 000 adultes choisis au hasard. Je pense que vous auriez un bien meilleur contrôle de la qualité et une bien meilleure analyse des problèmes impliqués et des données elles-mêmes.

Wayne
la source
2

Je pensais que la raison pour laquelle l'échantillonnage peut être (n'est pas) plus précise que le recensement avait en fait une composante qui est attribuable à la nature d'un recensement par rapport à un échantillon, et qui peut être attribuée comme la cause d'un recensement ayant potentiellement un biais plus important (évidemment non-échantillonnage, par définition): dans un recensement, le nombre d'habitants est généralement inconnu. Il est donc beaucoup plus difficile de minimiser ou de contrôler le biais de non-réponse qu'avec un échantillon de taille connue.

George
la source