Les instituts de sondage français sont actuellement confrontés à une crise majeure après avoir récemment publié ce que l'on ne peut appeler que le sondage le plus ridicule jusqu'à présent sur la course aux chevaux de l'élection présidentielle de 2012. Le Sénat français envisage désormais de légiférer sur la question en obligeant les instituts de sondage à publier, entre autres, les intervalles de confiance pour leurs résultats.
Cependant, certains sondeurs s'opposent à la mesure, affirmant que les intervalles de confiance ne s'appliquent pas à l' échantillonnage par quotas , qui est la méthode utilisée par les instituts de sondage en France. Étant donné que l'échantillonnage par quotas est un échantillonnage formellement non probabiliste, il y a du vrai dans l'allégation. Mais comme l'échantillonnage par quotas est un échantillonnage fondamentalement stratifié , des intervalles de confiance devraient s'appliquer, n'est-ce pas?
Puis-je demander des expériences sur ce problème en dehors de la France, dans les pays où les sondeurs utilisent également l'échantillonnage par quotas?
Réponses:
Comme le dit Whuber, la réponse courte est que les échantillons de quota sont "l'enfant de l'affiche pour les méthodes d'échantillonnage dépassées et connues comme mauvaises" et "ont longtemps été discrédités". La réponse la plus longue est qu'il peut y avoir des conditions dans lesquelles des échantillons "de type quota" peuvent fonctionner raisonnablement bien.
La pièce A ici est un travail récent sur la reconstruction des résultats représentatifs des panneaux Internet opt-in. Cet article fournit les bases statistiques de cette approche. Pour faire court, les schémas d'échantillonnage typiques 1) tirent un échantillon aléatoire, 2) tentent de recruter des sujets, puis 3) ajoutent des pondérations de post-stratification pour compenser les différences de qui répond. Dans l'approche opt-in, vous 1) recrutez des sujets de manière non aléatoire, 2) comparez les réponses à une ligne de base représentative et 3) ajoutez des pondérations pour compenser les différences.
En termes de pratique, l'échantillonnage opt-in est similaire à l'échantillonnage par quotas, mais le fondement statistique est plus développé. L'avantage est que vous pouvez faire des affirmations sur l'échantillonnage représentatif, les intervalles de confiance, etc.
Beaucoup de gens sont sceptiques quant à ces méthodes - elles ressemblent trop à l'échantillonnage de quotas. Mais certaines preuves suggèrent que l'échantillonnage opt-in peut bien fonctionner au moins une partie du temps. Ainsi, malgré la controverse, Polimetrix / YouGov (un des premiers à adopter le modèle d'échantillonnage opt-in) semble se porter assez bien. Entre autres choses, ils ont fait toute la collecte de données pour la Cooperative Congressional Election Study , une série d'études universitaires américaines récentes sur les élections.
(Je suis presque sûr que l'ICPSR porte ces données. Sinon, le dataverse des sciences sociales de Harvard le fait certainement. Beaucoup d'universitaires utilisent les données de ces échantillons.)
Quoi qu'il en soit, vous avez posé des questions sur l'échantillonnage des quotas. Comme vous pouvez le voir déjà dans le fil de commentaires ici, tout sondeur bien formé vous dira que l'échantillonnage des quotas est superposé. Le jury n'est toujours pas sur l'échantillonnage opt-in. Pour le moment, si vous voulez tracer des intervalles de confiance autour des échantillons de quota, je dirais que ces méthodes sont votre meilleur pari.
la source
Dans la plupart des contextes d'enquête non obligatoires, il y a un problème important avec la non-réponse. Ceci à partir de 2002: "l'estimation récemment rapportée des taux de coopération en matière d'enquêtes du CMOR, du Council for Market and Opinion Research [USA], n'était en moyenne que de 14,7%." et de Paul Gerhold, "Je crois qu'il est toujours possible de prélever des échantillons aléatoires. Je ne crois tout simplement pas qu'il soit possible de les exécuter." Dans ce contexte, le fait que le SAMPLE soit aléatoire n'est pas très pertinent, car les données résultantes ne le sont pas.
Cela fait de l'ajustement des biais le principal problème d'une estimation valide, et la conception de la méthode de terrain est un élément important. Les façons dont on pourrait vouloir le faire, et les estimations de confiance qui en résultent, vont bien au-delà de ce qui peut être discuté ici.
la source