Pourquoi / (() l'échantillonnage statistique devrait-il fonctionner pour la politique (par exemple Gallup)?

14

Les sondages (par exemple, Gallup) échantillonnent un nombre absurdement bas de personnes par rapport à la taille de la population (par exemple, peut-être mille personnes sur des centaines de millions).

Maintenant, pour moi, l'échantillonnage d'une population comme moyen d'estimer les statistiques de la population est logique lorsque vous avez de bonnes raisons de croire que les échantillons sont représentatifs de la population (ou, de la même manière, d' autres échantillons ) .

Par exemple, l'échantillonnage a évidemment un sens pour les études médicales, car nous savons a priori que les humains ont tous des génomes assez similaires et que ce facteur fait que leur corps se comporte de manière similaire.
Notez que ce n'est pas une sorte de couplage lâche - le génome est un facteur déterminant assez sacrément fort .

Cependant, je ne comprends tout simplement pas ce qui justifie l'utilisation de faibles tailles d'échantillon pour des choses comme les sondages politiques.

Je pourrais acheter que peut-être 80 à 90% des personnes dans un quartier donné votent de la même manière pour le président (en raison de milieux socioéconomiques / éducatifs similaires), mais cela ne semble guère justifier le nombre absurdement faible d'échantillons. Il y a littéralement aucune raison impérieuse (du moins pour moi) pour laquelle 1000 électeurs au hasard devraient se comporter comme les 200 millions d'autres électeurs.

Pour moi, il faudrait au moins aimer (disons) 100 × ce montant. Pourquoi? Je peux penser à un tas de raisons, par exemple:

  1. Il y a environ 22 000 circonscriptions seulement en Californie . Les gens grandissent si différemment dans leur milieu économique et éducatif qu'un sondage de taille 1000 semble ridiculement petit. Comment pouvez-vous résumer des circonscriptions entières avec <1 personne en moyenne?

  2. Les gens ne peuvent généralement pas changer les réponses de leur corps à la médecine, mais ils peuvent changer leurs opinions sur la politique simplement en y réfléchissant. De mon point de vue, il n'y a pas de facteur de forçage apparenté à l'ADN en médecine lorsque vous avez affaire à la politique. Au mieux, j'imagine qu'il devrait y avoir de petites poches de corrélation.

Pourtant, des sondages comme celui-ci semblent ... fonctionner quand même? Ou du moins, les gens semblent penser qu'ils le font?
Mais pourquoi devraient-ils? Peut-être que je ne comprends pas fondamentalement l' échantillonnage ? Quelqu'un peut-il expliquer?
Je ne peux tout simplement pas prendre au sérieux les sondages que je vois, mais j'ai l'impression d'être plus ou moins seul dans ce ...

user541686
la source
4
"l'échantillonnage a évidemment du sens pour les études médicales, car nous savons a priori que les humains ont tous des génomes assez similaires" Je n'ai pas de formation médicale, mais notre ADN diffère- t-il vraiment moins de nos opinions politiques? Si oui, pourquoi est-il si difficile d'étudier la génétique et pourquoi ne l'avons-nous pas déjà pleinement comprise? Je parierais que si vous prenez deux personnes au hasard, elles auront plus de chances d'avoir les mêmes opinions politiques, puis le même ADN.
Tim
3
@Tim: "Je parierais que si vous prenez deux personnes au hasard, elles seront plus susceptibles d'avoir les mêmes opinions politiques, puis le même ADN." Combien voulez-vous parier? google.com/search?q=dna+similarity+between+humans
user541686
2
Mais la différence de 0,5% n'est-elle pas la chose la plus importante lorsque vous faites de telles comparaisons? De plus, nous partageons 60% de gènes avec les mouches , donc je suppose que nous pourrions échantillonner les humains et les mouches de manière échangeable pour la recherche médicale? Comparé: en 2008, Obama a obtenu 53% des voix lors de l'élection présidentielle américaine. De plus, je dirais que lors de la recherche d'un médicament salvateur mais potentiellement dangereux, vous devriez être plus prudent dans l'échantillonnage que lors de la recherche sur la préférence pour l'utilisation du savon produit par la société A vs B, ou pour les groupes d'opinion.
Tim
2
@ user2338816: "C'est convaincant car il a été exact historiquement", c'est moins comme les mathématiques et plus comme les sciences. Je suis tout à fait disposé à l'acheter pour des raisons scientifiques (parce que c'est ainsi que la science se déroule), mais pas pour des raisons purement mathématiques (basées sur des preuves).
user541686
1
Je contesterais l'affirmation (prudente) selon laquelle les sondages fonctionnent pour les élections. Je ne me souviens même pas que les sondages soient proches des résultats réels des élections d'où je viens. Il y a tout simplement trop de facteurs que vous ne pouvez pas vraiment prendre en compte - par exemple, avec notre fréquentation de ~ 60%, vous êtes presque aussi susceptible d'échantillonner quelqu'un qui ne va pas voter que celui qui ne le fait pas. Participer à un sondage demande moins d'efforts que de voter, et parfois vous êtes même payé pour cela. Certains partis ont une fréquentation beaucoup plus élevée que d'autres (comme le parti communiste). Vous devez citer l'écart ainsi que les «résultats» dans tout échantillonnage.
Luaan

Réponses:

13

Il semble que vous imaginiez un modèle d'échantillonnage très simple.

Le modèle d'échantillonnage le plus simple est appelé à juste titre Échantillonnage aléatoire simple . Vous sélectionnez un sous-ensemble de la population (par exemple, en composant des numéros de téléphone au hasard) et demandez à qui répond comment il vote. Si 487 disent Clinton, 463 disent Trump, et le reste vous donne une réponse farfelue, alors la firme de sondage rapporterait que 49% des électeurs préfèrent Clinton, tandis que 46% préfèrent Trump. Cependant, les entreprises de sondage font bien plus que cela. Un échantillon aléatoire simple donne un poids égal à chaque point de données. Cependant, supposons que votre échantillon contienne - par hasard - 600 hommes et 400 femmes, ce qui n'est clairement pas représentatif de la population dans son ensemble. Si les hommes en tant que groupe se penchent dans un sens, tandis que les femmes se penchent dans l'autre, cela faussera votre résultat. Cependant, comme nous avons de très bonnes statistiques démographiques, vous pouvez pondérer *les réponses en comptant un peu plus les réponses des femmes et celles des hommes, de sorte que la réponse pondérée représente mieux la population. Les organisations de sondage ont des modèles de pesage plus compliqués qui peuvent faire ressembler un échantillon non représentatif à un échantillon plus représentatif.

L'idée de pondérer les réponses échantillonnées repose sur des bases statistiques assez solides, mais il existe une certaine souplesse dans le choix des facteurs qui contribuent aux pondérations. La plupart des sondeurs effectuent une nouvelle pondération en fonction de facteurs démographiques tels que le sexe, l'âge et la race. Compte tenu de cela, vous pourriez penser que l'identification du parti (démocrate, républicain, etc.) devrait également être incluse, mais il s'avère que la plupart des bureaux de vote ne l' utilisent pas dans leurs poids: l'identification (auto) du parti est enchevêtrée avec le choix de l'électeur d'une manière qui le rend moins utile.

De nombreux bureaux de vote rapportent également leurs résultats parmi les "électeurs probables". Dans ces cas, les répondants sont soit sélectionnés soit pondérés en fonction de la probabilité qu'ils se présentent réellement aux urnes. Ce modèle est sans aucun doute basé sur les données, mais le choix précis des facteurs permet une certaine flexibilité. Par exemple, inclure des interactions entre le candidat et la race (ou le sexe) de l'électeur n'était même pas sensé avant 2008 ou 2016, mais je soupçonne qu'ils ont maintenant un certain pouvoir prédictif.

En théorie, vous pouvez inclure toutes sortes de facteurs comme facteurs de pondération: préférence musicale, couleur des yeux, etc. Cependant, les facteurs démographiques sont des choix populaires pour les facteurs de pondération car:

  • Empiriquement, ils correspondent bien au comportement des électeurs. De toute évidence, il n'y a pas de loi à toute épreuve qui «force» les hommes blancs à être républicains maigres, mais au cours des cinquante dernières années, ils ont eu tendance à le faire.
    • Les valeurs de la population sont bien connues (p. Ex. D'après le recensement ou l'état civil)

Cependant, les sondeurs voient également les mêmes nouvelles que tout le monde et peuvent ajuster les variables de pondération si nécessaire.

Il existe également certains «facteurs de fudge» qui sont parfois invoqués pour expliquer les résultats du sondage. Par exemple, les répondants hésitent parfois à donner des réponses «socialement indésirables». L' effet Bradley postule que les électeurs blancs minimisent parfois leur soutien aux candidats blancs contre une minorité pour éviter de paraître racistes. Il porte le nom de Tom Bradley, un candidat afro-américain à la fonction de gouverneur qui a perdu de peu l'élection bien qu'il mène confortablement dans les sondages.

Enfin, vous avez tout à fait raison de dire que le simple fait de demander l'avis de quelqu'un peut le changer. Les entreprises de sondage tentent de rédiger leurs questions de manière neutre. Pour éviter des problèmes avec l'ordre des réponses possibles, les noms des candidats peuvent être répertoriés dans un ordre aléatoire. Plusieurs versions d'une question sont également parfois testées les unes par rapport aux autres. Cet effet peut également être exploité à des fins néfastes dans un sondage poussé , où l'intervieweur n'est pas réellement intéressé à recueillir des réponses mais à les influencer. Par exemple, un sondage poussé pourrait demander "Voteriez-vous pour [le candidat A] même s'il était signalé qu'il était un agresseur d'enfants?".


* Vous pouvez également définir des objectifs explicites pour votre échantillon, comme inclure 500 hommes et 500 femmes. C'est ce qu'on appelle l' échantillonnage stratifié - la population est stratifiée en différents groupes, et chaque groupe est ensuite échantillonné au hasard. Dans la pratique, cela n'est pas fait très souvent pour les sondages, car il faudrait stratifier en de nombreux groupes exhaustifs (par exemple, les hommes ayant fait des études collégiales entre 18 et 24 ans dans le Texas urbain).

Matt Krause
la source
2
Je comprends certainement qu'ils ne font pas l' échantillonnage aléatoire simple, mais ma question est de savoir si ce qu'ils sont en train de faire est juste bon juste parce qu'il arrive que leurs hypothèses sont correctes (soit une intuition raisonnable , mais subjective), ou si les hypothèses sont statistiquement justifiable. Voir mon commentaire sur l'autre réponse ici .
user541686
3
Les deux, je pense. La pondération de l'échantillon est la chose statistiquement correcte à faire, mais il y a ... flexibilité pour décider comment choisir les facteurs qui entrent dans les pondérations. Par exemple, la race, le sexe et l'éducation sont tous utiles, mais il s'avère que l'identification du parti n'est souvent pas (par exemple, theguardian.com/commentisfree/2012/sep/27/… ), probablement parce qu'elle est liée au candidat de l'électeur choix.
Matt Krause
1
De même, les pondérations incluent parfois une estimation de la probabilité que le répondant vote: les jeunes font beaucoup de bruit, mais ne se présentent pas toujours; les personnes âgées assistent rarement aux rassemblements mais se présentent de manière fiable aux urnes. Cela pourrait être estimé à partir de données historiques (les listes électorales sont parfois publiques), mais j'imagine que certains endroits l'ont ajusté pour les Afro-Américains en 2008 et pour les femmes en 2016.
Matt Krause
Merci! Peut-être bon de mentionner cette "flexibilité" dans votre réponse aussi :) +1
user541686
10

Il existe un théorème mathématique appelé la «loi des grands nombres». Imaginez que vous vouliez déterminer la probabilité qu'une pièce monte en tête. La "population" des lanceurs de pièces est infinie - beaucoup plus grande que les 300 000 000+ personnes aux États-Unis. Mais selon la loi des grands nombres, plus vous lancez de pièces, plus votre estimation sera précise.

Le sondage idéal: Dans le sondage idéal, les sondeurs choisiraient au hasard des noms du recensement américain, ils découvriraient où ces gens vivent, puis ils iraient frapper à leur porte. Si la personne dit qu'elle envisage de voter, le sondeur demande pour qui elle vote et enregistre sa réponse. L'interrogation comme celle-ci est mathématiquement garantie de fonctionner et la quantité d'erreur dans votre mesure pour un niveau de confiance donné peut être calculée facilement .

Voici ce que signifie l'erreur: Supposons que d'après votre sondage, vous avez obtenu 52% de chances que le candidat Awesome McPerfect gagne, avec une erreur de 3% avec une confiance de 98%. Cela signifie que vous pouvez être sûr à 98% que la véritable proportion d'électeurs favorables au candidat Awesome McPerfect se situe entre 49% et 55%.

Remarque sur l'erreur et la confiance Pour une taille d'échantillon donnée, plus vous êtes confiant, plus votre erreur sera importante. Pensez-y - vous êtes sûr à 100% que la vraie proportion qui prend en charge Canditate Awesome se situe entre 0% et 100% (la plupart des erreurs possibles), et vous êtes 0% confiant que la vraie proportion qui prend en charge Canditate Awesome est exactement 52,0932840985028390984308%. (zéro erreur). Plus de confiance signifie plus d'erreur, moins de confiance signifie moins d'erreur. Cependant, la relation entre la confiance et l'erreur n'est PAS linéaire! (Voir: https://en.wikipedia.org/wiki/Confidence_interval )

Sondages dans le monde réel: Parce qu'il est cher d'hélicoptère des sondeurs dans toutes les régions du pays pour frapper aux portes de personnes aléatoires (même si j'adorerais que cela se produise; si vous êtes un milliardaire et que vous voyez cela, s'il vous plaît envisager de financer cela), les sondages dans le monde réel sont plus complexes. Regardons l'une des stratégies les plus courantes - appeler des électeurs au hasard et leur demander pour qui ils voteraient. C'est une bonne stratégie, mais elle a quelques défauts bien connus:

  1. Les gens choisissent souvent de ne pas répondre au téléphone et de répondre aux sondeurs (ex. Moi)
  2. Certaines données démographiques sont plus susceptibles d'avoir un téléphone fixe (ex. Électeurs plus âgés)
  3. Certaines données démographiques sont plus susceptibles de répondre aux sondeurs (ex. Électeurs plus âgés)

Parce que les différentes données démographiques votent de différentes manières, les sondeurs doivent faire de leur mieux pour contrôler les différences dans leurs données brutes (en fonction de qui a décidé de répondre au téléphone) et les résultats des élections réelles. Par exemple, si 10% des personnes qui ont décroché le téléphone étaient hispaniques, mais que 30% des électeurs aux dernières élections étaient hispaniques, alors ils vont donner trois fois plus de poids aux électeurs hispaniques dans leur sondage. Si 50% des personnes qui ont répondu au téléphone avaient plus de 60 ans, mais seulement 30% des personnes qui ont voté lors des dernières élections avaient plus de 60 ans, elles donneront moins de poids aux électeurs plus âgés qui ont répondu. Ce n'est pas parfait, mais cela peut conduire à des exploits de prédiction impressionnants (Nate Silver a correctement prédit les résultats dans chacun des 50 États lors des élections de 2012 en utilisant des statistiques,

Un mot d'avertissement aux sages: les sondeurs font les meilleures prédictions possibles en fonction de la façon dont les choses se sont passées dans le passé. De manière générale , les choses fonctionnent à peu près de la même manière qu'auparavant, ou du moins le changement est suffisamment lent pour que le passé récent (sur lequel ils se concentrent le plus) ressemble au présent. Cependant, il y a parfois des changements rapides dans l'électorat et les choses tournent mal. Les électeurs de Trump sont peut-être légèrement moins susceptibles que votre électeur moyen de répondre au téléphone, et la pondération par les données démographiques ne tient pas compte de cela. Ou peut-être que les jeunes (qui soutiennent massivement Hillary) sont même pluspeu susceptibles de répondre au téléphone que ne le prédisent les modèles, et ceux qui répondent au téléphone sont plus susceptibles d'être républicains. Ou peut-être que le contraire des deux est vrai - nous ne savons pas. des choses comme ça sont des variables cachées qui n'apparaissent pas dans les données démographiques couramment collectées.

Nous aimerions savoir si nous avons envoyé des sondeurs pour frapper aux portes au hasard (ahem, billionare imaginaire lisant ceci), depuis lors , nous ne serions pas à des choses de poids sur la base des données démographiques, mais jusque - là, les doigts croisés.

J. Antonio Perez
la source
3
J'apprécie la réponse, mais c'est un peu élémentaire par rapport à la question que j'essayais de poser et à mes antécédents (je ne sais pas si vous l'avez remarqué, mais je ne suis pas exactement nouveau pour les bases des probabilités / statistiques); Je ne pense pas que la réponse à ma question ici soit aussi fondamentale que la vôtre. Par exemple: une hypothèse de la loi classique d' un grand nombre est que nous avons des variables aléatoires avec des distributions identiques ... mais je ne vois pas une justification dans un contexte politique: pourquoi devrait la distribution que vous mettez sur mon vote et la tienne même du tout ?
user541686
De plus, je ne suis même pas sûr que la loi des grands nombres justifie la chose que vous essayez de justifier même si ses hypothèses sont satisfaites. La question porte sur la taille des échantillons que la loi des grands nombres ne traite pas vraiment (du moins pas de la manière que vous avez suggérée); nous avons besoin ici d'une notion de la variance ou du taux de convergence, pas seulement de la convergence de la moyenne à l'infini. Peut-être vouliez-vous invoquer le théorème de la limite centrale plutôt que la loi des grands nombres? (Bien que je vous prie de voir mon commentaire précédent car c'est probablement théorique.)
user541686
2
Les distributions ne s'appliquent pas aux votes individuels. Les votes individuels ne sont pas aléatoires. Ils s'appliquent au comportement électoral de la population dans son ensemble. C'est comme dessiner des boules colorées à partir d'une urne - chaque balle est prédéterminée pour être rouge ou bleue, mais vous pouvez avoir une probabilité de dessiner chaque couleur et donc vous pouvez construire une distribution pour la probabilité de dessiner une certaine couleur de balle basée sur un échantillon des balles dans l'urne
J. Antonio Perez
1
Regardons autre chose que la politique avec les gens. La saveur préférée de la crème glacée dépend de tout autant de choses que de ses opinions politiques. Cela pourrait dépendre des préférences de leurs amis, de bons souvenirs de leur enfance, de bonnes ou de mauvaises expériences au glacier. Peut-être qu'ils aiment une saveur parce qu'ils l'ont obtenue lors de leur premier rendez-vous avec leur femme ou leur mari. Peut-être qu'ils n'aiment pas une saveur car cela leur rappelle leur ex. Mais si je faisais un sondage au hasard auprès de personnes en Amérique, ne seriez-vous pas d'accord pour dire que je pourrais juger les meilleures saveurs de glaces préférées en Amérique?
J. Antonio Perez
1
La "variable aléatoire" est la personne sélectionnée par le sondeur à qui on demande sa préférence. La préférence d'un individu n'est pas aléatoire; quel individu le sondeur sélectionne est aléatoire.
J. Antonio Perez
7

Tout d'abord, ceci est en dehors de vos principaux points, mais il convient de le mentionner. Dans l'essai médical, 1000 personnes pourraient tester un médicament qui peut être administré chaque année aux 10000 personnes malades. Vous pourriez regarder cela et penser "Cela est testé sur 10% de la population", en fait, la population n'est pas de 10000 personnes, ce sont tous les futurs patients, donc la taille de la population est infinie. 1000 personnes ne sont pas grandes par rapport aux utilisateurs potentiels infinis du médicament, mais ce type d'études fonctionne. Peu importe que vous testiez 10%, 1% ou 0,1% de la population; ce qui est important, c'est la taille absolue de l'échantillon et non sa taille par rapport à la population.

Ensuite, votre point principal est qu'il y a tellement de variables confusionnelles qui peuvent influencer le vote des gens. Vous traitez les 22 000 districts de Californie comme 22 000 variables, mais en réalité ce ne sont que quelques variables (revenu et éducation comme vous l'avez mentionné). Vous n'avez pas besoin d'un échantillon représentatif de chaque district, vous avez juste besoin d'assez d'échantillons pour couvrir la variation due au revenu, à l'éducation, etc.

kknnσ2nk variables de confusion serakσ2n.

Vous pouvez probablement penser à une dizaine de variables confondantes, mais la taille de l'échantillon est de 1000, donc k est beaucoup plus petit que n. Par conséquent, la variance de la moyenne de l'échantillon est assez faible.

Éditer:

La formule ci-dessus supposait que chaque variable de confusion est également importante. Si nous voulons considérer des centaines de choses qui peuvent ajouter de la variance aux résultats, cette hypothèse n'est pas valide (par exemple, peut-être que les utilisateurs de Twitter soutiennent un candidat de plus, mais nous savons que l'utilisation de Twitter n'est pas aussi importante que le sexe).

Nous pourrions énumérer toutes les variables de confusion par ordre d'importance (par exemple, sexe, âge, revenu, ..., utilisation de Twitter, ...). Supposons que chaque variable ne soit que 90% aussi importante que la précédente. Maintenant, si le sexe ajoute une variance égale àσ2 alors l'âge ajoute une variance égale à 0,9σ2 et le revenu ajoute 0,92σ2. Si nous incluons un nombre infini de variables confondantes, la variabilité totale estn=0σ20,9n=dixσ2.

Avec ce type de considération pour les variables mineures, nous nous sommes retrouvés avec une variance avec 10 fois la variabilité du sexe seul. Donc avecn échantillonne la variation de la moyenne de l'échantillon est dixσ2n. Bien sûr0,9 a été choisi arbitrairement, mais cela donne un point sur la façon dont ce nombre infini de variables mineures devrait s'additionner à quelque chose de petit

Hugh
la source
Merci d'avoir répondu! En ce qui concerne le premier point, je suppose que c'est vrai, mais mon point de vue était que peu importe la taille de la population humaine, car vous avez un facteur de forçage (ADN, etc.) qui rendrait les résultats assez similaires pour tout échantillon. En ce qui concerne la seconde, cependant: je peux acheter qu'il pourrait y avoir quelques variables dans la pratique, mais la seule façon de justifier mathématiquement cette hypothèse et de l'utiliser plus tard est d'échantillonner d'abord un grand nombre de personnes et de la démontrer, non? Sans cela, la conclusion ne semble plus statistiquement rigoureuse ni justifiable.
user541686
Nous avons établi par expérience que l'âge, le sexe, le revenu et quelques autres sont des facteurs clés dans le mode de scrutin des gens et nous le savons également uniquement par les connaissances générales. Vous avez raison, il pourrait y avoir des centaines d'autres petits facteurs qui influencent les votes et, en théorie, ils pourraient s'additionner à quelque chose d'important, mais nos connaissances générales nous disent qu'ils sont sans importance. À ce stade, le modèle n'est pas rigoureusement justifié, mais qui va tester des facteurs mineurs comme "Est-ce que la blonde fait voter les gens pour Clinton? Le port d'une perruque fait-il voter pour Trump?".
Hugh
"mais qui va tester des facteurs mineurs comme [...]" - mais c'est le problème ici. Si la réponse est «parce que c'est le mieux que nous puissions faire pratiquement / parce que ça arrive juste de fonctionner / parce que c'est coûteux autrement / etc.», c'est une réponse parfaitement correcte à la question «Pourquoi ne sondent-ils pas 100 000 personnes? ", mais ce n'est pas vraiment une réponse à" Comment 1000 personnes peuvent-elles être statistiquement justifiables? ". C'est pourquoi je pose cette question sur Stats.SE par opposition à Politics.SE ... Je me fiche que plus d'échantillons ne soient pas pratiques; ma question est de savoir pourquoi les gens pensent que les méthodes actuelles sont statistiquement justifiées.
user541686
Les deux premières phrases du dernier commentaire semblent cependant être une réponse raisonnable, si vous dites que ce type d'étude a été fait à grande échelle (~ des centaines de milliers sinon des millions de personnes) et que c'est la fondement de nos hypothèses. Si oui, je pense qu'ils devraient être ajoutés à votre réponse car ils abordent le nœud de ma question (idéalement avec une citation, bien que je ne puisse pas être trop pointilleux étant donné que c'est un peu tangent et que ce n'est pas de la politique. ).
user541686
Vous avez raison de dire que tester des facteurs mineurs n'est pas pratique mais mathématiquement pertinent. J'ai édité ma réponse pour expliquer pourquoi nous ne sommes pas préoccupés par des centaines de petits facteurs qui influencent le résultat. Je suis sûr que vous pouvez trouver des recherches sur l'influence du principal facteur.
Hugh