Une règle de notation est un moyen d'évaluer la supposition d'un agent des probabilités associées à un événement catégoriel, étant donné un résultat (catégorique) de l'événement. Selon la supposition et le résultat observé, la règle de notation attribue à l'agent un score (un nombre réel). Une règle de notation est censée attribuer des scores tels que, en moyenne, l'agent avec le moins de score fait les suppositions les plus précises. (Les conventions diffèrent selon que les règles de notation sont formulées en termes de minimisation ou de maximisation. Ici, je prends la vue de minimisation.)
Une propriété importante des règles de notation est de savoir si elles sont une règle de notation appropriée; c'est-à-dire, s'ils donnent le moins de score moyen lorsqu'un agent devine les vraies probabilités (ou, dans un cadrage bayésien subjectif, ils donnent le score moyen le moins postérieur, étant donné les propres priorités de l'agent, lorsqu'un agent utilise ses propres degrés de croyance comme ses suppositions). Dans le cas d'un événement binaire, l'erreur quadratique de 0 ou 1 (le score de Brier) est une règle de notation appropriée, contrairement à l'erreur absolue. Pourquoi? Eh bien, le critère de propreté est basé sur la moyenne, et la moyenne est la mesure de la tendance centrale qui minimise la somme des différences au carré, mais n'a pas besoin de minimiser l'erreur absolue.
Cette ligne de pensée suggère que si nous remplaçons la moyenne dans la définition d'une règle de notation appropriée par une autre fonction statistique, telle que la médiane, nous obtiendrons alors une sorte de famille riche de règles de notation appropriées. Il n'est pas déraisonnable d'imaginer une situation où un agent souhaite minimiser son score médian plutôt que son score moyen. En fait, il semble qu'il n'y ait pas de règles de notation à médiane non triviale. Si l'on considère à nouveau le cas d'un événement binaire, si la vraie probabilité est inférieure à 1/2, le score médian d'un agent sera égal au score attribué à l'agent lorsque l'événement ne se produit pas, quel que soit l'événement. probabilité exacte. Des manigances analogues semblent se produire si nous remplaçons la moyenne par, disons, la moyenne géométrique.
Alors, y a-t-il un sentiment que pour que la théorie des règles de notation appropriées fonctionne comme prévu, la fonction statistique doit être la moyenne?
Je me rends compte que c'est une question vague, et la meilleure réponse est probablement d'expliquer pourquoi la question n'a pas vraiment de sens, alors voici le contexte dans lequel je me pose la question, pour vous aider à ne pas me confondre. Je suis psychologue de la prise de décision, et je me retrouve souvent à vouloir quantifier la performance (soit la performance prédictive, sous validation croisée, ou l'ajustement de modèle post-hoc) d'un modèle qui crache des probabilités de ce que les gens choisiront dans un scénario de décision binaire. La discussion ci-dessus suggère que je devrais utiliser une règle de notation appropriée. Chose ennuyeuse, les règles de notation appropriées ne sont pas à la même échelle que les probabilités. Je me retrouve à vouloir, par exemple, prendre la racine carrée de l'erreur quadratique moyenne plutôt que de simplement regarder l'erreur quadratique moyenne (c'est-à-dire le score Brier moyen), mais dans le cas d'un essai, le RMSE est équivalent à l'erreur absolue, ce qui n'est pas correct, alors ne penserais-je pas alors que les modèles moins précis sont meilleurs? Évidemment, je ne peux pas simplement changer ma méthode d'évaluation des règles de notation d'une en termes de moyens à une en termes, par exemple, de médianes. Dois-je simplement me familiariser avec l'échelle de l'une des règles de notation appropriées habituelles, ou utiliser une statistique de détection de signal comme une zone sous la courbe ROC ou d '?
Une complication supplémentaire est que, pour une étude, je regarde des ajustements de modèle paramétrés par bootstrap, conformément à Wagenmakers, Ratcliff, Gomez et Iverson (2004), ce qui signifie que je regarde des diagrammes de densité de scores plutôt que des scores individuels. Ensuite, il est encore moins clair si je dois m'inquiéter de la propreté ou d'un critère analogue.
Modifier: consultez ce fil de commentaires sur Reddit pour plus de discussion.
Wagenmakers, E.-J., Ratcliff, R., Gomez, P., et Iverson, GJ (2004). Évaluation du mimétisme du modèle à l'aide du bootstrap paramétrique. Journal of Mathematical Psychology, 48 , 28–50. doi: 10.1016 / j.jmp.2003.11.004
la source
Réponses:
Contrairement à ce que vous avez dit sur les manigances de la moyenne géométrique, il existe en fait des règles de notation appropriées pour la moyenne géométrique.
La moyenne géométrique d'une variable aléatoire est égale à . Par conséquent , en minimisant la moyenne géométrique d'un score aléatoire correspond à minimiser la moyenne arithmétique d'un score aléatoire . Donc, si est une règle de notation correcte standard (où est le score que vous obtenez si vous prédisez une probabilité et que l'événement se produit), alors est une règle de notation appropriée pour la moyenne géométrique.X eE(logX) S logS f(p^) f(p^) p^ g(p^)=logf(p^)
De même, la moyenne harmonique de est , donc est une règle de notation harmonique appropriée . (Le signe négatif est là, donc la transformation des coordonnées augmente monotone.)X E(X−1)−1 g(p^)=−f(p^)−1
Cela fonctionne pour toute tendance centrale qui est la moyenne arithmétique dans un espace transformé monotone. Le problème est que la médiane ne fonctionne pas comme ça. Plus généralement, toute tendance centrale avec un point de rupture non nul ne fonctionnera pas, car elle sera insensible aux changements de probabilité lorsque est petit. Par exemple, la plage interquartile ne fonctionnera pas, car si , alors la plage interquartile des scores ne dépend pas de (donc le même doit minimiser l'IQR pour toutes les valeurs de inférieures à , ce qui est mauvais).p p<0.25 p p^ p 0.25
Du haut de ma tête, je ne peux penser à aucune tendance centrale avec 0 point de rupture qui ne peut pas être réécrit comme une transformation monotone de la moyenne arithmétique, mais c'est probablement parce que je ne connais pas assez le calcul variationnel (certainement pas assez pour prouver que j'ai raison). Si j'ai raison, cependant, il serait "essentiellement" vrai que
Une autre remarque: vous suggérez d'utiliser le RMSE comme règle de notation, mais que vous ne devriez pas le faire car il coïncide avec l'erreur absolue lorsqu'il y a un point de données. Cela semble refléter une certaine confusion. Vous évaluez toujours une règle de notation pour chaque prédiction individuelle. Ensuite, si vous voulez résumer les scores, vous pouvez ensuite prendre la tendance centrale des scores. Donc, prédire l'optimisation du RMSE est toujours identique à l'optimisation de l'erreur absolue.
D'un autre côté, vous pourriez faire quelque chose comme prendre la racine carrée du score Brier moyen comme résumé si vous vouliez avoir un résumé de score qui était en "unités de probabilité". Mais je pense qu'il serait plus productif de simplement vous familiariser avec les repères de l'échelle de score Brier, car c'est ce que vous verrez généralement:
Vous pouvez également construire d'autres références en utilisant des modèles très simples - par exemple, si vous ignorez toutes les informations sur les événements et prédisez simplement le taux de base , alors votre score Brier est . Ou si vous prévoyez des séries chronologiques, vous pouvez voir dans quelle mesure une moyenne pondérée des derniers événements, etc.p p(1−p)
la source
Vous devez revenir à la motivation pour une règle de score appropriée, que vous énoncez vaguement car "l'agent avec le moins de points fait les suppositions les plus précises". Pour être précis, l'origine des règles de notation est de susciter des probabilités qui reflètent les vraies croyances - comme vous le dites, une personne ne peut pas faire mieux que d'offrir une probabilité correspondant à sa croyance lorsqu'on lui propose une règle de notation en récompense. Les règles de notation ont été utilisées pour définir ce que signifie une probabilité sans se référer à la limite d'un grand nombre de répétitions.
Une telle règle de notation est dérivée en prenant l'espérance sur la règle, d'où l'apparition de la moyenne sur l'ensemble des prédictions. Alors, quand vous demandez doit "la fonction statistique doit être la moyenne?" vous demandez vraiment comment pouvons-nous prendre l'attente sur un ensemble de scores par une autre méthode que l'utilisation conventionnelle de la moyenne?
J'ai lu dans votre inquiétude que «les règles de notation appropriées ne sont pas à la même échelle que les probabilités» que vous cherchez peut-être à exprimer à quel point le score calculé est bon ou mauvais? Mis à part le score de Brier, le log de la différence absolue entre la probabilité offerte et un résultat 0,1 est également une règle de notation appropriée, mais cela peut ne pas donner de résultats plus interprétables, d'autant plus qu'il peut diverger vers des valeurs extrêmes pour de grandes erreurs.
La dérivation des règles de notation est enterrée par le fait que le décideur a une utilité linéaire, donc l'attente est prise directement sur la règle de notation, et non sur l'utilité du résultat de la règle de notation. (Une personne peut présenter un risque défavorable à de grands écarts par rapport à la vérité, ce qui fausserait ses probabilités obtenues.) Peut-être pensez-vous implicitement à une fonction d'utilité qui exprime à quel point les «probabilités de ce que les gens choisiront» sont bonnes ou mauvaises au lieu de juste les probabilités elles-mêmes?
la source