Notions alternatives à celles de règles de notation appropriées et utilisation de règles de notation pour évaluer les modèles

Une règle de notation est un moyen d'évaluer la supposition d'un agent des probabilités associées à un événement catégoriel, étant donné un résultat (catégorique) de l'événement. Selon la supposition et le résultat observé, la règle de notation attribue à l'agent un score (un nombre réel). Une règle de notation est censée attribuer des scores tels que, en moyenne, l'agent avec le moins de score fait les suppositions les plus précises. (Les conventions diffèrent selon que les règles de notation sont formulées en termes de minimisation ou de maximisation. Ici, je prends la vue de minimisation.)

Une propriété importante des règles de notation est de savoir si elles sont une règle de notation appropriée; c'est-à-dire, s'ils donnent le moins de score moyen lorsqu'un agent devine les vraies probabilités (ou, dans un cadrage bayésien subjectif, ils donnent le score moyen le moins postérieur, étant donné les propres priorités de l'agent, lorsqu'un agent utilise ses propres degrés de croyance comme ses suppositions). Dans le cas d'un événement binaire, l'erreur quadratique de 0 ou 1 (le score de Brier) est une règle de notation appropriée, contrairement à l'erreur absolue. Pourquoi? Eh bien, le critère de propreté est basé sur la moyenne, et la moyenne est la mesure de la tendance centrale qui minimise la somme des différences au carré, mais n'a pas besoin de minimiser l'erreur absolue.

Cette ligne de pensée suggère que si nous remplaçons la moyenne dans la définition d'une règle de notation appropriée par une autre fonction statistique, telle que la médiane, nous obtiendrons alors une sorte de famille riche de règles de notation appropriées. Il n'est pas déraisonnable d'imaginer une situation où un agent souhaite minimiser son score médian plutôt que son score moyen. En fait, il semble qu'il n'y ait pas de règles de notation à médiane non triviale. Si l'on considère à nouveau le cas d'un événement binaire, si la vraie probabilité est inférieure à 1/2, le score médian d'un agent sera égal au score attribué à l'agent lorsque l'événement ne se produit pas, quel que soit l'événement. probabilité exacte. Des manigances analogues semblent se produire si nous remplaçons la moyenne par, disons, la moyenne géométrique.

Alors, y a-t-il un sentiment que pour que la théorie des règles de notation appropriées fonctionne comme prévu, la fonction statistique doit être la moyenne?

Je me rends compte que c'est une question vague, et la meilleure réponse est probablement d'expliquer pourquoi la question n'a pas vraiment de sens, alors voici le contexte dans lequel je me pose la question, pour vous aider à ne pas me confondre. Je suis psychologue de la prise de décision, et je me retrouve souvent à vouloir quantifier la performance (soit la performance prédictive, sous validation croisée, ou l'ajustement de modèle post-hoc) d'un modèle qui crache des probabilités de ce que les gens choisiront dans un scénario de décision binaire. La discussion ci-dessus suggère que je devrais utiliser une règle de notation appropriée. Chose ennuyeuse, les règles de notation appropriées ne sont pas à la même échelle que les probabilités. Je me retrouve à vouloir, par exemple, prendre la racine carrée de l'erreur quadratique moyenne plutôt que de simplement regarder l'erreur quadratique moyenne (c'est-à-dire le score Brier moyen), mais dans le cas d'un essai, le RMSE est équivalent à l'erreur absolue, ce qui n'est pas correct, alors ne penserais-je pas alors que les modèles moins précis sont meilleurs? Évidemment, je ne peux pas simplement changer ma méthode d'évaluation des règles de notation d'une en termes de moyens à une en termes, par exemple, de médianes. Dois-je simplement me familiariser avec l'échelle de l'une des règles de notation appropriées habituelles, ou utiliser une statistique de détection de signal comme une zone sous la courbe ROC ou d '?

Une complication supplémentaire est que, pour une étude, je regarde des ajustements de modèle paramétrés par bootstrap, conformément à Wagenmakers, Ratcliff, Gomez et Iverson (2004), ce qui signifie que je regarde des diagrammes de densité de scores plutôt que des scores individuels. Ensuite, il est encore moins clair si je dois m'inquiéter de la propreté ou d'un critère analogue.

Modifier: consultez ce fil de commentaires sur Reddit pour plus de discussion.

Wagenmakers, E.-J., Ratcliff, R., Gomez, P., et Iverson, GJ (2004). Évaluation du mimétisme du modèle à l'aide du bootstrap paramétrique. Journal of Mathematical Psychology, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004

scales scoring-rules Kodiologue
la source

Ai-je raison de dire que vous posez deux questions: 1 - Le «bon» peut-il être redéfini en termes de score médian, plutôt que de score attendu d'une prévision donnée? 2 - Existe-t-il des scores appropriés pour les probabilités qui sont à l'échelle de la probabilité?

Fabian

(1) Je suis presque sûr que la réponse à cette question est "non"; ce que je demande, c'est s'il est logique de redéfinir «propre» en termes d'autre chose que la moyenne (c.-à-d., l'attente). (2) Oui, c'est une question à laquelle j'aimerais avoir une réponse, mais comme la réponse est probablement encore "non", je suppose que mon suivi serait "Alors, quelle est une bonne règle de notation qui est interprétable d'une manière qui se rapporte naturellement aux probabilités? "

Kodiologist

À propos de (1), l'article suivant semble lié à votre question: ssc.upenn.edu/~fdiebold/papers/paper118/DieboldShin_SED.pdf Les auteurs examinent un cas dans lequel l'intérêt n'est pas sur le score attendu, mais sur la distribution des scores. Fait intéressant, ils finissent à nouveau par minimiser les scores attendus d'une certaine forme (voir les propositions 2.2 et 3.1).

Fabian

Malheureusement, il semble que cet article porte sur des prévisions du même type que le DV, par opposition à ce cas où je pose des questions sur les suppositions de la probabilité d'un événement plutôt que sur une estimation de l'événement le plus probable. Les suppositions sont des probabilités alors que le DV est réalisé de manière discrète.

Kodiologist

Réponses:

Contrairement à ce que vous avez dit sur les manigances de la moyenne géométrique, il existe en fait des règles de notation appropriées pour la moyenne géométrique.

La moyenne géométrique d'une variable aléatoire est égale à . Par conséquent , en minimisant la moyenne géométrique d'un score aléatoire correspond à minimiser la moyenne arithmétique d'un score aléatoire . Donc, si est une règle de notation correcte standard (où est le score que vous obtenez si vous prédisez une probabilité et que l'événement se produit), alors est une règle de notation appropriée pour la moyenne géométrique. $X$ $e^{E(\log X)}$ $S$ $\log S$ $f(\hat p)$ $f(\hat p)$ $\hat p$ $g(\hat p) = \log f(\hat p)$

De même, la moyenne harmonique de est , donc est une règle de notation harmonique appropriée . (Le signe négatif est là, donc la transformation des coordonnées augmente monotone.) $X$ $E(X^{-1})^{-1}$ $g(\hat p) = -f(\hat p)^{-1}$

Cela fonctionne pour toute tendance centrale qui est la moyenne arithmétique dans un espace transformé monotone. Le problème est que la médiane ne fonctionne pas comme ça. Plus généralement, toute tendance centrale avec un point de rupture non nul ne fonctionnera pas, car elle sera insensible aux changements de probabilité lorsque est petit. Par exemple, la plage interquartile ne fonctionnera pas, car si , alors la plage interquartile des scores ne dépend pas de (donc le même doit minimiser l'IQR pour toutes les valeurs de inférieures à , ce qui est mauvais). $p$ $p < 0.25$ $p$ $\hat p$ $p$ $0.25$

Du haut de ma tête, je ne peux penser à aucune tendance centrale avec 0 point de rupture qui ne peut pas être réécrit comme une transformation monotone de la moyenne arithmétique, mais c'est probablement parce que je ne connais pas assez le calcul variationnel (certainement pas assez pour prouver que j'ai raison). Si j'ai raison, cependant, il serait "essentiellement" vrai que

pour que la théorie des règles de notation appropriées fonctionne comme prévu, la fonction statistique doit être la moyenne.

Une autre remarque: vous suggérez d'utiliser le RMSE comme règle de notation, mais que vous ne devriez pas le faire car il coïncide avec l'erreur absolue lorsqu'il y a un point de données. Cela semble refléter une certaine confusion. Vous évaluez toujours une règle de notation pour chaque prédiction individuelle. Ensuite, si vous voulez résumer les scores, vous pouvez ensuite prendre la tendance centrale des scores. Donc, prédire l'optimisation du RMSE est toujours identique à l'optimisation de l'erreur absolue.

D'un autre côté, vous pourriez faire quelque chose comme prendre la racine carrée du score Brier moyen comme résumé si vous vouliez avoir un résumé de score qui était en "unités de probabilité". Mais je pense qu'il serait plus productif de simplement vous familiariser avec les repères de l'échelle de score Brier, car c'est ce que vous verrez généralement:

0 est un prédicteur parfait;
0,25 signifie aucune capacité prédictive ( ); $\hat p = 0.5$
1 est un anti-prédicteur parfait ( ou ). $\hat p = 1, p = 0$ $\hat p = 0, p = 1$

Vous pouvez également construire d'autres références en utilisant des modèles très simples - par exemple, si vous ignorez toutes les informations sur les événements et prédisez simplement le taux de base , alors votre score Brier est . Ou si vous prévoyez des séries chronologiques, vous pouvez voir dans quelle mesure une moyenne pondérée des derniers événements, etc. $p$ $p(1-p)$

Ben Kuhn
la source

Merci pour votre réponse réfléchie. "alors est une règle de notation appropriée pour la moyenne géométrique" - Voulez-vous dire ? Ensuite, nous obtenons , qui a la même minimisation que , comme souhaité.

g (\hat{p}) = \log f (\hat{p})

$g(\hat p) = \log f(\hat p)$

e^{f (\hat{p})}

$e^{f(\hat p)}$

E [\log S_{2}] = E [\log e^{S}] = E [S]

$E[\log S_2] = E[\log e^S] = E[S]$

\hat{p}

$\hat p$

e^{E (\log S_{2})}

$e^{E(\log S_2)}$

Kodiologist

"Vous évaluez toujours une règle de score sur chaque prédiction individuelle. Ensuite, si vous voulez résumer les scores, vous pouvez prendre la tendance centrale des scores par la suite." - En pratique, il semble y avoir deux phases dans lesquelles une tendance centrale est impliquée: (1) lors de l'agrégation des scores d'un seul agent sur plusieurs événements (2) lors de l'examen des performances à long terme d'un agent. (2) utilise la sortie de (1). On aurait pu s'attendre, a priori, à pouvoir utiliser RMSE pour (1) mais la moyenne pour les analyses concernant (2).

Kodiologist

@Kodiologist: Merci pour la correction! Me sert bien de ne pas l'avoir écrit en premier.

Ben Kuhn

Concernant votre deuxième commentaire: je pense que la confusion peut être entre l'utilisation de RMSE comme tendance centrale et l'utilisation de RMSE comme règle de notation. En règle générale, le RMSE est identique à l'erreur absolue, car les scores sont évalués sur une base prédiction par prédiction. En tant que tendance centrale, c'est bien - c'est encore une fois la moyenne dans un espace de coordonnées transformé monotone (tant que la fonction de notation est positive). Mais l'utilisation de RMSE comme tendance centrale (pas de règle de notation) n'atténue pas le problème que vos scores n'ont pas les mêmes unités que les probabilités.

Ben Kuhn

@Kodiologist: cela répond-il à votre question? Faites-moi savoir si vous vous demandez encore quelque chose!

Ben Kuhn

Vous devez revenir à la motivation pour une règle de score appropriée, que vous énoncez vaguement car "l'agent avec le moins de points fait les suppositions les plus précises". Pour être précis, l'origine des règles de notation est de susciter des probabilités qui reflètent les vraies croyances - comme vous le dites, une personne ne peut pas faire mieux que d'offrir une probabilité correspondant à sa croyance lorsqu'on lui propose une règle de notation en récompense. Les règles de notation ont été utilisées pour définir ce que signifie une probabilité sans se référer à la limite d'un grand nombre de répétitions.

Une telle règle de notation est dérivée en prenant l'espérance sur la règle, d'où l'apparition de la moyenne sur l'ensemble des prédictions. Alors, quand vous demandez doit "la fonction statistique doit être la moyenne?" vous demandez vraiment comment pouvons-nous prendre l'attente sur un ensemble de scores par une autre méthode que l'utilisation conventionnelle de la moyenne?

J'ai lu dans votre inquiétude que «les règles de notation appropriées ne sont pas à la même échelle que les probabilités» que vous cherchez peut-être à exprimer à quel point le score calculé est bon ou mauvais? Mis à part le score de Brier, le log de la différence absolue entre la probabilité offerte et un résultat 0,1 est également une règle de notation appropriée, mais cela peut ne pas donner de résultats plus interprétables, d'autant plus qu'il peut diverger vers des valeurs extrêmes pour de grandes erreurs.

La dérivation des règles de notation est enterrée par le fait que le décideur a une utilité linéaire, donc l'attente est prise directement sur la règle de notation, et non sur l'utilité du résultat de la règle de notation. (Une personne peut présenter un risque défavorable à de grands écarts par rapport à la vérité, ce qui fausserait ses probabilités obtenues.) Peut-être pensez-vous implicitement à une fonction d'utilité qui exprime à quel point les «probabilités de ce que les gens choisiront» sont bonnes ou mauvaises au lieu de juste les probabilités elles-mêmes?

John Mark
la source

Réutiliser les règles de notation pour définir la probabilité: intéressant, je n'en avais aucune idée. Oui, chercher à évaluer la qualité des scores calculés me préoccupe. Re notation logarithmique donnant des scores extrêmes pour les grosses erreurs: dûment noté. Concernant l'utilité non linéaire: vous avez peut-être raison, mais décider des fonctions utilitaires semble être une affaire très délicate, en particulier dans la recherche fondamentale.

Kodiologist