Premièrement, il donne la probabilité des résultats. Ainsi, par exemple, ses prédictions pour les élections américaines sont actuellement de 82% pour Clinton contre 18% pour Trump.
Maintenant, même si Trump gagne, comment puis-je savoir que ce n'était pas seulement les 18% du temps qu'il aurait dû gagner?
L'autre problème est que ses probabilités changent avec le temps. Donc le 31 juillet, c'était presque un 50-50 entre Trump et Clinton.
Ma question est, étant donné qu'il a une probabilité différente chaque jour pour le même événement futur avec le même résultat, comment puis-je mesurer la précision avec laquelle il a fait chaque jour une prédiction basée sur les informations disponibles jusqu'à ce jour?
forecasting
prediction
validation
accuracy
scoring-rules
Soupe aux dinosaures
la source
la source
Réponses:
Les prévisions probabilistes (ou, comme elles sont également connues, les prévisions de densité) peuvent être évaluées en utilisant des règles de notation , c'est -à- dire des fonctions qui mappent une prévision de densité et un résultat observé à un soi-disant score, qui est minimisé dans l'attente si la prévision de densité c'est en effet la véritable densité à prévoir. Les règles de notation correctes sont des règles de notation qui sont minimisées dans l'attente uniquement par la véritable densité future.
Il existe un certain nombre de règles de notation appropriées, à commencer par Brier (1950, Monthly Weather Review ) dans le contexte des prévisions météorologiques probabilistes. Czado et al. (2009, Biometrics ) donnent un aperçu plus récent du cas discret. Gneiting & Katzfuss (2014, Revue annuelle des statistiques et son application ) donnent un aperçu de la prévision probabiliste en général - Gneiting en particulier a été très actif pour faire avancer la cause de règles de notation appropriées.
Cependant, les règles de notation sont quelque peu difficiles à interpréter, et elles n'aident vraiment qu'à comparer plusieurs prévisions probabilistes - celle avec le score le plus bas est meilleure. Jusqu'à la variation d'échantillonnage, c'est-à-dire qu'il est toujours préférable d'avoir beaucoup de prévisions à évaluer, dont nous ferions la moyenne des scores.
Comment inclure la "mise à jour" des prévisions de Silver ou d'autres est une bonne question. Nous pouvons utiliser des règles de notation pour comparer des «instantanés» de différentes prévisions à un moment donné, ou nous pourrions même examiner les prévisions probabilistes de Silver au fil du temps et calculer des scores à chaque instant. On pourrait espérer que le score diminue de plus en plus (c'est-à-dire que les prévisions de densité s'améliorent de plus en plus) plus le résultat réel est proche.
la source
Dans le livre de Nate Silver, The Signal and the Noise, il écrit ce qui suit, ce qui peut éclairer votre question:
Cela soulève donc quelques points. Tout d'abord, comme vous le faites remarquer à juste titre, vous ne pouvez vraiment pas faire d'inférence sur la qualité d'une seule prévision par le résultat de l'événement que vous prévoyez. Le mieux que vous puissiez faire est de voir les performances de votre modèle au cours de nombreuses prévisions.
Une autre chose à laquelle il est important de penser est que les prédictions fournies par Nate Silver ne sont pas un événement en soi, mais la distribution de probabilité de l'événement. Donc, dans le cas de la course présidentielle, il estime la distribution de probabilité de la victoire de Clinton, Trump ou Johnson. Donc, dans ce cas, il estime une distribution multinomiale.
Mais il prédit en fait la course à un niveau beaucoup plus précis. Ses prédictions estiment les distributions de probabilité du pourcentage de votes que chaque candidat obtiendra dans chaque État. Donc, si nous considérons 3 candidats, cela pourrait être caractérisé par un vecteur aléatoire de longueur 51 * 3 et prenant des valeurs dans l'intervalle [0, 1], sous la contrainte que les proportions soient égales à 1 pour les proportions dans un état. Le nombre 51 est dû au fait que les autres sont 50 États + DC (et en fait, je pense que c'est en fait un peu plus parce que certains États peuvent partager leurs votes des collèges électoraux), et le nombre 3 est dû au nombre de candidats.
Maintenant, vous n'avez pas beaucoup de données pour évaluer ses prédictions - il n'a fourni que des prédictions pour les 3 dernières élections que je connais (y avait-il plus?). Je ne pense donc pas qu'il existe un moyen d'évaluer équitablement son modèle, à moins que vous n'ayez réellement le modèle en main et que vous puissiez l'évaluer à l'aide de données simulées. Mais il y a encore des choses intéressantes que vous pourriez regarder. Par exemple, je pense qu'il serait intéressant de voir avec quelle précision il a prédit les proportions de vote État par État à un moment donné, par exemple une semaine après les élections. Si vous répétez cela pour plusieurs points dans le temps, par exemple une semaine, un mois, 6 mois et un an, alors vous pourriez fournir une exposition assez intéressante pour ses prédictions. Une mise en garde importante: les résultats sont fortement corrélés entre les États au sein d'une élection, vous ne pouvez donc pas vraiment dire que vous avez 51 États * 3 instances de prédiction indépendantes des élections (c'est-à-dire que si le modèle sous-estime les performances des candidats dans un État, il aura également tendance à sous-estimer dans d'autres États) . Mais peut-être que je penserais à ça comme ça de toute façon juste pour que vous ayez suffisamment de données pour faire quoi que ce soit de significatif avec.
la source
Pour toute prédiction unique que vous ne pouvez pas faire, pas plus que nous ne pouvons dire si l'affirmation "cette pièce a 60% de chances de monter des têtes" est proche de la correction d'un seul tirage au sort.
Cependant, vous pouvez évaluer sa méthodologie à travers de nombreuses prédictions - pour une élection donnée, il fait beaucoup de prédictions, pas seulement de la course présidentielle dans son ensemble mais de nombreuses prédictions relatives au vote pour le président et de nombreuses autres races (maison, sénat, gouvernement) et ainsi de suite), et il utilise également des méthodologies largement similaires au fil du temps.
Il existe de nombreuses façons de faire cette évaluation (certaines assez sophistiquées), mais nous pouvons examiner des moyens relativement simples pour en avoir une idée. Par exemple, vous pouvez diviser les prédictions de la probabilité d'une victoire en bandes, par exemple (50-55%, 55-65% et ainsi de suite), puis voir quelle proportion des prédictions dans cette bande s'est produite; la proportion de 50 à 55% de prévisions qui ont fonctionné devrait se situer entre 50 et 55% selon l'endroit où se situait la moyenne (plus une marge de variation aléatoire *).
Donc, par cette approche (ou diverses autres approches), vous pouvez voir si la distribution des résultats était cohérente avec les prédictions à travers une élection, ou à travers plusieurs élections (si je me souviens bien, je pense que ses prédictions ont été plus souvent bonnes qu'elles auraient dû l'être) , ce qui suggère que ses erreurs types ont en moyenne été légèrement surestimées).
* nous devons être prudents sur la façon d'évaluer cela, car les prédictions ne sont pas indépendantes.
la source