Je suis totalement nouveau dans les statistiques et le domaine des intervalles de confiance. Cela peut donc être très trivial ou même stupide. J'apprécierais si vous pouviez m'aider à comprendre ou me diriger vers de la littérature / du texte / un blog qui explique mieux cela.
Je vois sur divers sites d'actualités comme CNN, Fox news, Politico etc. à propos de leurs sondages concernant la course présidentielle américaine 2012. Chaque agence effectue des sondages et rapporte des statistiques du formulaire:
CNN: La popularité d'Obama est de X% avec une marge d'erreur de +/- x1%. Taille de l'échantillon 600. FOX: La popularité d'Obama est de Y% avec une marge d'erreur de +/- y1%. Taille de l'échantillon 800. XYZ: La popularité d'Obama est de Z% avec une marge d'erreur de +/- z1%. Taille de l'échantillon 300.
Voici mes doutes:
Comment puis-je décider lequel faire confiance? Doit-il être basé sur l'intervalle de confiance, ou devrais-je supposer que puisque Fox a un échantillon plus grand, son estimation est plus fiable? Existe-t-il une relation implicite entre les intervalles de confiance et la taille de l'échantillon de sorte que la spécification de l'un évite d'avoir à spécifier l'autre?
Puis-je déterminer l'écart type par rapport aux intervalles de confiance? Si oui, est-il toujours valable ou valable uniquement pour certaines distributions (comme la gaussienne)?
Existe-t-il un moyen de «fusionner» ou de «combiner» les trois estimations ci-dessus et d'obtenir ma propre estimation avec des intervalles de confiance? Quelle taille d'échantillon dois-je réclamer dans ce cas?
J'ai mentionné CNN / Fox uniquement pour mieux expliquer mon exemple. Je n'ai pas l'intention d'ouvrir ici un débat entre démocrates et républicains.
Veuillez m'aider à comprendre les problèmes que j'ai soulevés.
C'est un sujet énorme, mais il y a fondamentalement deux problèmes:
1) Précision - elle est déterminée par la taille de l'échantillon. Des échantillons plus grands donnent des estimations plus précises avec une erreur standard plus faible et des intervalles de confiance plus serrés
2) Biais - qui, en statistiques, n'a pas nécessairement les connotations négatives qu'il a ailleurs. Dans les sondages, ils essaient d'obtenir un échantillon aléatoire de XXXX (parfois des électeurs probables, parfois des électeurs inscrits). Mais ce n'est pas le cas. Certains sondages n'utilisent que des lignes terrestres. Différents groupes de personnes sont plus ou moins susceptibles de répondre. Différents groupes sont plus ou moins susceptibles de raccrocher.
Ainsi, tous les sondeurs pondèrent leurs réponses. Autrement dit, ils essaient d'ajuster leurs résultats pour correspondre aux faits connus sur les électeurs. Mais ils le font tous un peu différemment. Ainsi, même avec les mêmes données d'entrée d'interrogation, elles donneront des nombres différents.
À qui faire confiance? Eh bien, si vous regardez le travail de Nate Silver sur 538, il a évalué la précision des sondeurs lors des élections précédentes. Mais cela ne signifie pas qu'ils seront tout aussi exacts maintenant.
la source
Cela se situe dans le domaine de l'échantillonnage d'enquête. En principe, les méthodes fonctionnent car la randomisation est utilisée. Voici les choses qui peuvent différer dans les sondages en fonction de décisions subjectives.
Cadre d'échantillonnage. De quel groupe d'électeurs devrais-je tirer mon échantillon?
Comment gérer la volatilité de l'électeur indécis qui peut changer son opinion sur Obama vs Romney en fonction du sondage d'hier ou des semaines prochaines?
Peter a évoqué le parti pris. Le sondage littéraire de 1936 fut un désastre. Il a choisi le candidat républicain sur FDR parce que la base de sondage était basée sur une sélection aléatoire de numéros de téléphone. En 1936, seule la classe moyenne supérieure et les riches possédaient un téléphone. Ce groupe était dominé par les républicains qui ont tendance à voter pour le candidat républicain. Roosevelt a gagné par un glissement de terrain obtenant ses votes des pauvres et de la classe moyenne qui avait tendance à être en grande partie un groupe de démocrates! Cela illustre le biais dû au choix subtilement médiocre d'une base d'échantillonnage.
L'échantillonnage de l'enquête porte sur les populations finies. La taille de la population est N. Supposons qu'un échantillon aléatoire simple soit tiré de cette population et ait la taille n. Pour simplifier, supposons que seuls Obama et Romney sont en cours d'exécution. La proportion de votes qu'Obama obtiendrait pour cette base d'échantillonnage est une moyenne de variables binaires (disons 1 si le répondant choisit Obama et 0 pour Romney). La variance de la moyenne de l'échantillon pour cette variable est [p (1-p) / n] [Nn] / N où p est la véritable proportion de la population qui choisirait Obama. [Nn] / N est la correction de population finie. dans la plupart des sondages, N est beaucoup plus grand que N et le correct peut être ignoré. En regardant p (1-p) / n, nous voyons que la variance diminue avec n. Donc, si n est grand, l'intervalle de confiance à un niveau de confiance donné deviendra petit.
Les enquêteurs et autres échantillonneurs et statisticiens d'enquête du US Census Bureau ont tous ces outils statistiques à leur disposition et ils utilisent des méthodes plus complexes et plus précises (échantillon aléatoire en grappes et échantillonnage aléatoire stratifié pour ne citer que quelques méthodes).
Lorsque leurs hypothèses de modélisation sont valides, les méthodes fonctionnent remarquablement bien. Le sondage de sortie est un excellent exemple. Le jour du scrutin, vous verrez les réseaux projeter avec précision le gagnant dans presque tous les États bien avant un décompte presque final. En effet, la variabilité du jour de présélection a disparu. Ils savent historiquement comment les gens avaient tendance à voter et ils peuvent déterminer des circonscriptions choisies de manière à éviter les biais. Les réseaux diffèrent parfois. Cela peut être dû à une compétition pour choisir le gagnant avant la mentalité des autres. Cela peut également se produire dans de rares cas parce que le vote est extrêmement serré (par exemple, l'élection présidentielle de 2000 en Floride).
J'espère que cela vous donnera une image plus claire de ce qui se passe. On ne voit plus d'erreurs grossières comme "Dewey bat Truman" en 1948 ou le fiasco du Literary Digest de 1936. Mais les statistiques ne sont pas parfaites et les statisticiens ne peuvent jamais dire qu'ils sont certains.
la source