Les sondages (par exemple, Gallup) échantillonnent un nombre absurdement bas de personnes par rapport à la taille de la population (par exemple, peut-être mille personnes sur des centaines de millions).
Maintenant, pour moi, l'échantillonnage d'une population comme moyen d'estimer les statistiques de la population est logique lorsque vous avez de bonnes raisons de croire que les échantillons sont représentatifs de la population (ou, de la même manière, d' autres échantillons ) .
Par exemple, l'échantillonnage a évidemment un sens pour les études médicales, car nous savons a priori que les humains ont tous des génomes assez similaires et que ce facteur fait que leur corps se comporte de manière similaire.
Notez que ce n'est pas une sorte de couplage lâche - le génome est un facteur déterminant assez sacrément fort .
Cependant, je ne comprends tout simplement pas ce qui justifie l'utilisation de faibles tailles d'échantillon pour des choses comme les sondages politiques.
Je pourrais acheter que peut-être 80 à 90% des personnes dans un quartier donné votent de la même manière pour le président (en raison de milieux socioéconomiques / éducatifs similaires), mais cela ne semble guère justifier le nombre absurdement faible d'échantillons. Il y a littéralement aucune raison impérieuse (du moins pour moi) pour laquelle 1000 électeurs au hasard devraient se comporter comme les 200 millions d'autres électeurs.
Pour moi, il faudrait au moins aimer (disons) 100 × ce montant. Pourquoi? Je peux penser à un tas de raisons, par exemple:
Il y a environ 22 000 circonscriptions seulement en Californie . Les gens grandissent si différemment dans leur milieu économique et éducatif qu'un sondage de taille 1000 semble ridiculement petit. Comment pouvez-vous résumer des circonscriptions entières avec <1 personne en moyenne?
Les gens ne peuvent généralement pas changer les réponses de leur corps à la médecine, mais ils peuvent changer leurs opinions sur la politique simplement en y réfléchissant. De mon point de vue, il n'y a pas de facteur de forçage apparenté à l'ADN en médecine lorsque vous avez affaire à la politique. Au mieux, j'imagine qu'il devrait y avoir de petites poches de corrélation.
Pourtant, des sondages comme celui-ci semblent ... fonctionner quand même? Ou du moins, les gens semblent penser qu'ils le font?
Mais pourquoi devraient-ils? Peut-être que je ne comprends pas fondamentalement l' échantillonnage ? Quelqu'un peut-il expliquer?
Je ne peux tout simplement pas prendre au sérieux les sondages que je vois, mais j'ai l'impression d'être plus ou moins seul dans ce ...
la source
Réponses:
Il semble que vous imaginiez un modèle d'échantillonnage très simple.
Le modèle d'échantillonnage le plus simple est appelé à juste titre Échantillonnage aléatoire simple . Vous sélectionnez un sous-ensemble de la population (par exemple, en composant des numéros de téléphone au hasard) et demandez à qui répond comment il vote. Si 487 disent Clinton, 463 disent Trump, et le reste vous donne une réponse farfelue, alors la firme de sondage rapporterait que 49% des électeurs préfèrent Clinton, tandis que 46% préfèrent Trump. Cependant, les entreprises de sondage font bien plus que cela. Un échantillon aléatoire simple donne un poids égal à chaque point de données. Cependant, supposons que votre échantillon contienne - par hasard - 600 hommes et 400 femmes, ce qui n'est clairement pas représentatif de la population dans son ensemble. Si les hommes en tant que groupe se penchent dans un sens, tandis que les femmes se penchent dans l'autre, cela faussera votre résultat. Cependant, comme nous avons de très bonnes statistiques démographiques, vous pouvez pondérer *les réponses en comptant un peu plus les réponses des femmes et celles des hommes, de sorte que la réponse pondérée représente mieux la population. Les organisations de sondage ont des modèles de pesage plus compliqués qui peuvent faire ressembler un échantillon non représentatif à un échantillon plus représentatif.
L'idée de pondérer les réponses échantillonnées repose sur des bases statistiques assez solides, mais il existe une certaine souplesse dans le choix des facteurs qui contribuent aux pondérations. La plupart des sondeurs effectuent une nouvelle pondération en fonction de facteurs démographiques tels que le sexe, l'âge et la race. Compte tenu de cela, vous pourriez penser que l'identification du parti (démocrate, républicain, etc.) devrait également être incluse, mais il s'avère que la plupart des bureaux de vote ne l' utilisent pas dans leurs poids: l'identification (auto) du parti est enchevêtrée avec le choix de l'électeur d'une manière qui le rend moins utile.
De nombreux bureaux de vote rapportent également leurs résultats parmi les "électeurs probables". Dans ces cas, les répondants sont soit sélectionnés soit pondérés en fonction de la probabilité qu'ils se présentent réellement aux urnes. Ce modèle est sans aucun doute basé sur les données, mais le choix précis des facteurs permet une certaine flexibilité. Par exemple, inclure des interactions entre le candidat et la race (ou le sexe) de l'électeur n'était même pas sensé avant 2008 ou 2016, mais je soupçonne qu'ils ont maintenant un certain pouvoir prédictif.
En théorie, vous pouvez inclure toutes sortes de facteurs comme facteurs de pondération: préférence musicale, couleur des yeux, etc. Cependant, les facteurs démographiques sont des choix populaires pour les facteurs de pondération car:
Cependant, les sondeurs voient également les mêmes nouvelles que tout le monde et peuvent ajuster les variables de pondération si nécessaire.
Il existe également certains «facteurs de fudge» qui sont parfois invoqués pour expliquer les résultats du sondage. Par exemple, les répondants hésitent parfois à donner des réponses «socialement indésirables». L' effet Bradley postule que les électeurs blancs minimisent parfois leur soutien aux candidats blancs contre une minorité pour éviter de paraître racistes. Il porte le nom de Tom Bradley, un candidat afro-américain à la fonction de gouverneur qui a perdu de peu l'élection bien qu'il mène confortablement dans les sondages.
Enfin, vous avez tout à fait raison de dire que le simple fait de demander l'avis de quelqu'un peut le changer. Les entreprises de sondage tentent de rédiger leurs questions de manière neutre. Pour éviter des problèmes avec l'ordre des réponses possibles, les noms des candidats peuvent être répertoriés dans un ordre aléatoire. Plusieurs versions d'une question sont également parfois testées les unes par rapport aux autres. Cet effet peut également être exploité à des fins néfastes dans un sondage poussé , où l'intervieweur n'est pas réellement intéressé à recueillir des réponses mais à les influencer. Par exemple, un sondage poussé pourrait demander "Voteriez-vous pour [le candidat A] même s'il était signalé qu'il était un agresseur d'enfants?".
* Vous pouvez également définir des objectifs explicites pour votre échantillon, comme inclure 500 hommes et 500 femmes. C'est ce qu'on appelle l' échantillonnage stratifié - la population est stratifiée en différents groupes, et chaque groupe est ensuite échantillonné au hasard. Dans la pratique, cela n'est pas fait très souvent pour les sondages, car il faudrait stratifier en de nombreux groupes exhaustifs (par exemple, les hommes ayant fait des études collégiales entre 18 et 24 ans dans le Texas urbain).
la source
Il existe un théorème mathématique appelé la «loi des grands nombres». Imaginez que vous vouliez déterminer la probabilité qu'une pièce monte en tête. La "population" des lanceurs de pièces est infinie - beaucoup plus grande que les 300 000 000+ personnes aux États-Unis. Mais selon la loi des grands nombres, plus vous lancez de pièces, plus votre estimation sera précise.
Le sondage idéal: Dans le sondage idéal, les sondeurs choisiraient au hasard des noms du recensement américain, ils découvriraient où ces gens vivent, puis ils iraient frapper à leur porte. Si la personne dit qu'elle envisage de voter, le sondeur demande pour qui elle vote et enregistre sa réponse. L'interrogation comme celle-ci est mathématiquement garantie de fonctionner et la quantité d'erreur dans votre mesure pour un niveau de confiance donné peut être calculée facilement .
Voici ce que signifie l'erreur: Supposons que d'après votre sondage, vous avez obtenu 52% de chances que le candidat Awesome McPerfect gagne, avec une erreur de 3% avec une confiance de 98%. Cela signifie que vous pouvez être sûr à 98% que la véritable proportion d'électeurs favorables au candidat Awesome McPerfect se situe entre 49% et 55%.
Remarque sur l'erreur et la confiance Pour une taille d'échantillon donnée, plus vous êtes confiant, plus votre erreur sera importante. Pensez-y - vous êtes sûr à 100% que la vraie proportion qui prend en charge Canditate Awesome se situe entre 0% et 100% (la plupart des erreurs possibles), et vous êtes 0% confiant que la vraie proportion qui prend en charge Canditate Awesome est exactement 52,0932840985028390984308%. (zéro erreur). Plus de confiance signifie plus d'erreur, moins de confiance signifie moins d'erreur. Cependant, la relation entre la confiance et l'erreur n'est PAS linéaire! (Voir: https://en.wikipedia.org/wiki/Confidence_interval )
Sondages dans le monde réel: Parce qu'il est cher d'hélicoptère des sondeurs dans toutes les régions du pays pour frapper aux portes de personnes aléatoires (même si j'adorerais que cela se produise; si vous êtes un milliardaire et que vous voyez cela, s'il vous plaît envisager de financer cela), les sondages dans le monde réel sont plus complexes. Regardons l'une des stratégies les plus courantes - appeler des électeurs au hasard et leur demander pour qui ils voteraient. C'est une bonne stratégie, mais elle a quelques défauts bien connus:
Parce que les différentes données démographiques votent de différentes manières, les sondeurs doivent faire de leur mieux pour contrôler les différences dans leurs données brutes (en fonction de qui a décidé de répondre au téléphone) et les résultats des élections réelles. Par exemple, si 10% des personnes qui ont décroché le téléphone étaient hispaniques, mais que 30% des électeurs aux dernières élections étaient hispaniques, alors ils vont donner trois fois plus de poids aux électeurs hispaniques dans leur sondage. Si 50% des personnes qui ont répondu au téléphone avaient plus de 60 ans, mais seulement 30% des personnes qui ont voté lors des dernières élections avaient plus de 60 ans, elles donneront moins de poids aux électeurs plus âgés qui ont répondu. Ce n'est pas parfait, mais cela peut conduire à des exploits de prédiction impressionnants (Nate Silver a correctement prédit les résultats dans chacun des 50 États lors des élections de 2012 en utilisant des statistiques,
Un mot d'avertissement aux sages: les sondeurs font les meilleures prédictions possibles en fonction de la façon dont les choses se sont passées dans le passé. De manière générale , les choses fonctionnent à peu près de la même manière qu'auparavant, ou du moins le changement est suffisamment lent pour que le passé récent (sur lequel ils se concentrent le plus) ressemble au présent. Cependant, il y a parfois des changements rapides dans l'électorat et les choses tournent mal. Les électeurs de Trump sont peut-être légèrement moins susceptibles que votre électeur moyen de répondre au téléphone, et la pondération par les données démographiques ne tient pas compte de cela. Ou peut-être que les jeunes (qui soutiennent massivement Hillary) sont même pluspeu susceptibles de répondre au téléphone que ne le prédisent les modèles, et ceux qui répondent au téléphone sont plus susceptibles d'être républicains. Ou peut-être que le contraire des deux est vrai - nous ne savons pas. des choses comme ça sont des variables cachées qui n'apparaissent pas dans les données démographiques couramment collectées.
Nous aimerions savoir si nous avons envoyé des sondeurs pour frapper aux portes au hasard (ahem, billionare imaginaire lisant ceci), depuis lors , nous ne serions pas à des choses de poids sur la base des données démographiques, mais jusque - là, les doigts croisés.
la source
Tout d'abord, ceci est en dehors de vos principaux points, mais il convient de le mentionner. Dans l'essai médical, 1000 personnes pourraient tester un médicament qui peut être administré chaque année aux 10000 personnes malades. Vous pourriez regarder cela et penser "Cela est testé sur 10% de la population", en fait, la population n'est pas de 10000 personnes, ce sont tous les futurs patients, donc la taille de la population est infinie. 1000 personnes ne sont pas grandes par rapport aux utilisateurs potentiels infinis du médicament, mais ce type d'études fonctionne. Peu importe que vous testiez 10%, 1% ou 0,1% de la population; ce qui est important, c'est la taille absolue de l'échantillon et non sa taille par rapport à la population.
Ensuite, votre point principal est qu'il y a tellement de variables confusionnelles qui peuvent influencer le vote des gens. Vous traitez les 22 000 districts de Californie comme 22 000 variables, mais en réalité ce ne sont que quelques variables (revenu et éducation comme vous l'avez mentionné). Vous n'avez pas besoin d'un échantillon représentatif de chaque district, vous avez juste besoin d'assez d'échantillons pour couvrir la variation due au revenu, à l'éducation, etc.
Vous pouvez probablement penser à une dizaine de variables confondantes, mais la taille de l'échantillon est de 1000, donck est beaucoup plus petit que n . Par conséquent, la variance de la moyenne de l'échantillon est assez faible.
Éditer:
La formule ci-dessus supposait que chaque variable de confusion est également importante. Si nous voulons considérer des centaines de choses qui peuvent ajouter de la variance aux résultats, cette hypothèse n'est pas valide (par exemple, peut-être que les utilisateurs de Twitter soutiennent un candidat de plus, mais nous savons que l'utilisation de Twitter n'est pas aussi importante que le sexe).
Nous pourrions énumérer toutes les variables de confusion par ordre d'importance (par exemple, sexe, âge, revenu, ..., utilisation de Twitter, ...). Supposons que chaque variable ne soit que 90% aussi importante que la précédente. Maintenant, si le sexe ajoute une variance égale àσ2 alors l'âge ajoute une variance égale à 0,9 σ2 et le revenu ajoute 0,92σ2 . Si nous incluons un nombre infini de variables confondantes, la variabilité totale est∑∞n = 0σ20,9n= 10 σ2 .
Avec ce type de considération pour les variables mineures, nous nous sommes retrouvés avec une variance avec 10 fois la variabilité du sexe seul. Donc avecn échantillonne la variation de la moyenne de l'échantillon est 10 σ2n . Bien sûr0,9 a été choisi arbitrairement, mais cela donne un point sur la façon dont ce nombre infini de variables mineures devrait s'additionner à quelque chose de petit
la source