Comme l'élection est un événement ponctuel, ce n'est pas une expérience qui peut être répétée. Alors, que veut dire techniquement l'expression "Hillary a 75% de chances de gagner" ? Je cherche une définition statistiquement correcte, pas une définition intuitive ou conceptuelle.
Je suis un amateur de statistiques amateurs qui tente de répondre à cette question qui a été soulevée au cours d’une discussion. Je suis presque sûr qu'il y a une bonne réponse objective à cela, mais je ne peux pas le faire moi-même ...
probability
prediction
politics
pitosalas
la source
la source
Réponses:
Toutes les réponses fournies jusqu'à présent sont utiles, mais elles ne sont pas très précises sur le plan statistique, alors je vais tenter ma chance. En même temps, je vais donner une réponse générale plutôt que de me concentrer sur cette élection.
La première chose à garder à l'esprit lorsque nous essayons de répondre à des questions sur des événements réels tels que la victoire de Clinton aux élections, par opposition à des problèmes inventés tels que le fait de prendre des balles de différentes couleurs dans une urne, est qu'il n'y a pas t une manière raisonnable unique de répondre à la question, et donc pas une réponse unique unique. Si quelqu'un dit simplement "Hillary a 75% de chances de gagner" et ne décrit pas plus en détail son modèle d'élection, les données qu'il a utilisées pour établir ses estimations, les résultats de sa validation, ses hypothèses de base, s'il «Faites référence au vote populaire ou au vote électoral, etc., alors ils ne vous ont pas vraiment dit ce qu'ils voulaient dire, et encore moins vous ont donné suffisamment d'informations pour vous permettre d'évaluer si leur prédiction est bonne ou non. D'ailleurs, ce n'est pas
Alors, quelles sont les procédures qu'un statisticien pourrait utiliser pour estimer les chances de Clinton? En effet, comment pourraient-ils cadrer le problème? À un niveau élevé, il existe diverses notions de probabilité, dont les plus importantes sont le fréquentisme et le bayésien.
Selon une vision bayésienne , une probabilité représente un degré de crédibilité ou de crédibilité (qui peut être ou ne pas être une croyance réelle, selon que vous êtes un subjectiviste bayésien). Une chance de victoire de 75% chez Clinton signifie qu'il est crédible à 75% de sa victoire. Les crédibilités, quant à elles, peuvent être choisies librement (sur la base des convictions préexistantes d'un modèle ou d'un analyste) dans le cadre des lois de probabilité fondamentales (comme le théorème de Bayes , et le fait que la probabilité d'un événement conjoint ne peut dépasser la probabilité marginale de l'un ou l'autre). les événements composants). Une façon de résumer ces lois est que si vous pariez sur le résultat d'un événement en offrant des cotes aux joueurs en fonction de votre crédibilité, aucun joueur ne peut construire un livre en néerlandais.contre vous, c’est-à-dire un ensemble de paris qui garantit que vous perdrez de l’argent, quel que soit le déroulement de l’événement.
Que vous adoptiez une vision fréquentiste ou bayésienne de la probabilité, de nombreuses décisions doivent encore être prises pour analyser les données et en estimer la probabilité. La méthode la plus populaire est probablement basée sur des modèles de régression paramétriques, tels que la régression linéaire. Dans ce contexte, l’analyste choisit une famille paramétrique de distributions (c’est-à-dire des mesures de probabilité ) qui est indexée par un vecteur de nombres appelé paramètres. Chaque résultat est une variable aléatoire indépendante tirée de cette distribution, transformée en fonction des covariables, qui sont des valeurs connues (telles que le taux de chômage) que l'analyste souhaite utiliser pour prédire le résultat. L'analyste choisit des estimations des valeurs de paramètres à l'aide des données et d'un critère d'ajustement du modèle, tel que les moindres carrés.ou maximum de vraisemblance . En utilisant ces estimations, le modèle peut produire une prédiction du résultat (éventuellement une seule valeur, éventuellement un intervalle ou un autre ensemble de valeurs) pour toute valeur donnée des covariables. En particulier, il peut prédire le résultat d'une élection. Outre les modèles paramétriques, il existe des modèles non paramétriques (c'est-à-dire des modèles définis par une famille de distributions indexées avec un vecteur de paramètres infiniment long), ainsi que des méthodes de décision de valeurs prédites n'utilisant aucun modèle avec lequel les données ont été générées. , tels que les classificateurs les plus proches voisins et les forêts aléatoires .
Venir avec des prévisions est une chose, mais comment savoir si elles sont bonnes? Après tout, des prédictions suffisamment inexactes sont pires qu'inutiles. Tester les prévisions fait partie de la pratique plus large de la validation de modèle, à savoir la quantification de la qualité d'un modèle donné pour un objectif donné. La validation croisée et la scission des données en sous-ensembles d'apprentissage et de test avant l'ajustement d'un modèle sont deux méthodes courantes de validation des prévisions . Dans la mesure où les élections incluses dans les données sont représentatives de l'élection présidentielle américaine de 2016, les estimations de l'exactitude prédictive tirées de la validation des prédictions nous indiqueront la précision de nos prévisions concernant l'élection présidentielle américaine de 2016.
la source
Lorsque les statisticiens veulent prédire un résultat binaire (Hillary gagne contre Hillary ne gagne pas), ils imaginent que l'univers lance une pièce imaginaire: Heads, Hillary gagne; queues, elle perd. Pour certains statisticiens, la pièce représente leur degré de confiance dans le résultat; pour d'autres, la pièce représente ce qui pourrait arriver si nous renouvelions l'élection dans les mêmes circonstances, encore et encore. Sur le plan philosophique, il est difficile de savoir ce que nous entendons lorsque nous parlons d'événements futurs incertains, avant même d'y insérer des chiffres. Mais nous pouvons regarder d'où vient le nombre.
À ce stade des élections, nous avons une série de résultats de sondages. Celles-ci sont de la forme: 1000 personnes ont été interrogées dans l'Ohio, par exemple. 40% soutiennent Trump, 39% soutiennent Hillary, 21% sont indécis. Des élections similaires auraient eu lieu lors des élections précédentes pour les candidats respectifs démocrates, républicains (et autres partis parti-pris). Pour les années précédentes, il y a aussi des résultats. Vous savez peut-être que, par exemple, les candidats ayant obtenu 40% des voix lors d'un scrutin en juillet ont remporté 8 des 10 élections précédentes. Ou les résultats pourraient dire, dans 7 élections sur 10, les démocrates ont pris l'Ohio. Vous savez peut-être ce que l'Ohio compare au Texas (peut-être ne choisissent-ils jamais le même candidat) - vous pouvez avoir des informations sur la façon dont le vote indécis se décompose - et vous pouvez avoir des modèles intéressants de ce qui se passe lorsqu'un candidat commence à «faire irruption».
Ainsi, lorsque vous prenez en compte les élections précédentes, vous pouvez dire que la pièce électorale a déjà été lancée à plusieurs reprises. Les mêmes élections ne sont pas réexécutées tous les 4 ans, mais on peut prétendre que c'est le cas. À partir de toutes ces informations, les enquêteurs élaborent des modèles complexes pour prévoir les résultats de cette année.
Les 75% de chances de Hillary de gagner sont relatives à l'état de nos connaissances "aujourd'hui". Il est dit qu'un candidat avec le genre de résultats de sondage qu'elle a "maintenant", dans les États où elle les a, et compte tenu des tendances de ses sondages tout au long de la campagne, remporte les élections 3 années d'élection sur 4. Un mois à partir de maintenant, sa probabilité de gagner aura changé, car le modèle sera basé sur l'état des sondages en août.
Les États-Unis n'ont pas eu statistiquement un grand nombre d'élections dans leur histoire, et encore moins depuis le début du scrutin. Nous ne pouvons pas non plus être sûr que les tendances des sondages des années 70, par exemple, continuent de s'appliquer. Donc, tout est un peu louche.
L’essentiel est que Hillary devrait commencer à travailler sur son discours d’inauguration.
la source
Lorsque les statisticiens disent cela, ils ne font pas référence à la marge de victoire ni à la part du vote. Ils effectuent un grand nombre de simulations d'élection et calculent le pourcentage de voix obtenu par chaque candidat. Pour de nombreux modèles présidentiels robustes, ils ont des prévisions pour chaque État. Certains sont proches et si la course est courue plusieurs fois, les deux candidats pourraient gagner. Comme les intervalles de prédiction chevauchent souvent une marge de victoire de 0, il ne s’agit pas d’une réponse binaire, mais d’une simulation qui nous dira plus précisément à quoi nous attendre.
La page de méthodologie de FiveThirtyEight peut aider à comprendre un peu plus ce qui se cache sous le capot: http://fivethirtyeight.com/features/a-users-guide-to-fivethirtyety-2016-general-election-forecast/
la source
Il existe un épisode de la radio freakonomics qui est très pertinent pour cette question (en général, pas dans les détails d'une élection). Dans celui-ci, Stephen Dubner interroge le responsable d'un projet d'une agence de défense américaine visant à déterminer le meilleur moyen de prévoir les événements politiques mondiaux.
Ensuite, ils discutent de ce qu'il ne faut pas faire
Ensuite, l'épisode aborde les méthodologies utilisées par les prévisionnistes les plus performants pour estimer ces probabilités, prônant une approche bayésienne informelle.
L'épisode s'appelle Comment être moins terrible pour prédire l'avenir , et c'est une écoute très amusante. Je vous encourage à vérifier si cela vous intéresse!
la source
L'élection de 2016 est en effet un événement ponctuel. Mais il en va de même du lancer d'une pièce de monnaie ou du lancer d'un dé.
Quand quelqu'un prétend savoir qu'un candidat a 75% de chances de gagner, il ne prédit pas le résultat. Ils prétendent connaître la forme de la matrice.
Le résultat de l'élection ne peut invalider cela. Mais si le modèle utilisé pour arriver à 75% est testé contre de nombreuses élections, il pourrait être démontré que sa valeur prédictive est limitée. Ou il peut être né comme précieux.
Bien sûr, une fois qu'un prédicteur précieux est connu des candidats, ils peuvent modifier leur comportement et le modèle peut devenir inutile. Ou il peut être soufflé hors de proportion. Il suffit de regarder ce qui se passe dans l'Iowa.
la source
Quand quelqu'un dit que "Hillary a 75% de chances de gagner", cela signifie que si vous leur offrez un pari où une personne gagne 25 dollars si Hillary gagne et l'autre personne gagne 75 dollars si Hillary ne gagne pas, ils considéreront que un pari juste et n’ont aucune raison particulière de préférer l’un ou l’autre côté.
Ces pourcentages proviennent généralement des marchés de prédiction. Celles-ci résument toutes les informations disponibles et surpassent généralement les méthodes analytiques de prévision de la plupart des événements.
Les marchés de prévision offrent aux gens la possibilité de parier sur l’organisation ou non d’un événement particulier. Les retombées sont déterminées par la négociation entre les personnes des deux côtés de la proposition. En règle générale, les personnes qui ont une connaissance particulière d'une proposition tenteront de tirer parti de cette connaissance pour gagner de l'argent, ce qui aura pour effet secondaire de divulguer cette information.
Par exemple, supposons qu'il existe un marché de prédiction sur le fait de savoir si une célébrité vivra jusqu'à la fin de l'année. Le public connaît l'âge de la célébrité et tout le monde peut vérifier la probabilité de décès de cette célébrité d'ici la fin de l'année. Si c'était tout ce que l'on savait, vous vous attendriez à ce que les gens soient prêts à parier d'un côté ou de l'autre de cette proposition avec à peu près cette probabilité.
Maintenant, supposons que quelqu'un sache que la célébrité est en mauvaise santé mais la cache. Ou même dire que beaucoup de gens savaient que la famille de cette célébrité avait des antécédents de maladie cardiaque qui réduirait leurs chances de survie. Les personnes qui disposent de cette information seront disposées à accepter un point de vue de cette proposition, ce qui entraînera un ajustement du taux, au moment même où les acheteurs font monter le cours des actions et les vendeurs le font baisser.
En d’autres termes, lorsque les probabilités sont trop faibles, les personnes cherchant à faire des profits les poussent à la hausse. Et quand ils sont trop élevés, les gens qui cherchent à faire des profits les poussent vers le bas. Le prix du pari reflète finalement la sagesse collective de chacun sur les chances de la proposition de se produire, tout comme tous les prix reflètent la sagesse collective sur les coûts et les valeurs des choses.
la source
La question clé est de savoir comment attribuer une probabilité à un événement unique. La réponse est que vous développez un modèle pour lequel il n’est plus unique. Je pense qu'un exemple plus simple est la probabilité que le président meure dans ses fonctions. Vous pouvez considérer le président comme une personne d'un certain âge, comme une personne d'un certain âge et d'un certain sexe. Etc ... chaque modèle vous donne une prédiction différente ... a priori, il n’existe pas de modèle correct ... c’est au statisticien de choisir le modèle le plus approprié.
la source
Étant donné que les sondages révèlent une course très serrée, les 75% pourraient ne pas être exacts.
Vous demandez ce que cela signifie, pas comment ont-ils calculé cela. L'implication est que (si nous ignorons quelqu'un d'autre à l'exception de Clinton et de son adversaire principal), vous devez miser 3 $ pour obtenir un rendement de 4 $ si elle gagne. Alternativement, un pari de 1 $ sur l'autre coureur renverrait 4 $ s'il gagne.
Ma réponse fait une petite distinction entre la chance réelle pour un candidat de gagner et ce que les joueurs (les joueurs ou les chances de gagner) attendent. Je soupçonne que lorsque vous voyez des chiffres comme celui-ci, par exemple 75%, vous voyez les chiffres du calculateur de cotes, quand vous voyez entre 49 et 48%, vous voyez les résultats du sondage.
la source
S'ils font bien les choses, il se passe quelque chose dans les trois quarts des cas où ils ont 75% de chances. (ou plus généralement, même idée adaptée à toutes les prévisions de pourcentage)
Il est possible d’attribuer plus de sens que cela en fonction de nos opinions philosophiques et de ce que nous croyons des modèles, mais ce point de vue pragmatique est un peu le plus petit dénominateur commun - à tout le moins, les méthodes statistiques tentent (bien que éventuellement plutôt que directement) de faire des prévisions obéissant à ce point de vue pragmatique.
la source