Merkle et Steyvers (2013) écrivent:
Pour définir formellement une règle de notation appropriée, soit une prévision probabiliste d'un essai de Bernoulli avec une vraie probabilité de succès . Les règles de notation appropriées sont des mesures dont les valeurs attendues sont minimisées si .
Je comprends que c'est bien parce que nous voulons encourager les prévisionnistes à générer des prévisions qui reflètent honnêtement leurs vraies croyances, et ne voulons pas leur donner des incitations perverses à faire autrement.
Existe-t-il des exemples concrets dans lesquels il est approprié d'utiliser une règle de notation incorrecte?
classification
forecasting
scoring-rules
user1205901 - Réintégrer Monica
la source
la source
Réponses:
Il convient d'utiliser une règle de notation incorrecte lorsque le but est réellement la prévision, mais pas l'inférence. Je ne me soucie pas vraiment de savoir si un autre prévisionniste triche ou non quand je suis celui qui va faire les prévisions.
Des règles de notation appropriées garantissent que pendant le processus d'estimation, le modèle se rapproche du véritable processus de génération de données (DGP). Cela semble prometteur car à mesure que nous approchons du vrai DGP, nous allons également faire du bien en termes de prévision sous n'importe quelle fonction de perte. Le hic, c'est que la plupart du temps (en fait en réalité presque toujours) notre espace de recherche de modèle ne contient pas le vrai DGP. Nous finissons par approximer le vrai DGP avec une forme fonctionnelle que nous proposons.
Dans ce contexte plus réaliste, si notre tâche de prévision est plus facile que de déterminer la densité totale du vrai DGP, nous pouvons en fait faire mieux. Cela est particulièrement vrai pour la classification. Par exemple, le vrai DGP peut être très complexe mais la tâche de classification peut être très facile.
Yaroslav Bulatov a fourni l'exemple suivant dans son blog:
http://yaroslavvb.blogspot.ro/2007/06/log-loss-or-hinge-loss.html
Comme vous pouvez le voir ci-dessous, la véritable densité est ondulante, mais il est très facile de créer un classificateur pour séparer les données générées par celui-ci en deux classes. Tout simplement si classe de sortie 1, et si classe de sortie 2.x≥0 x<0
Au lieu de correspondre à la densité exacte ci-dessus, nous proposons le modèle brut ci-dessous, qui est assez loin du vrai DGP. Cependant, il fait un classement parfait. Ceci est trouvé en utilisant la perte de charnière, ce qui n'est pas approprié.
D'un autre côté, si vous décidez de trouver le vrai DGP avec perte de journal (ce qui est approprié), vous commencez à ajuster certaines fonctionnalités, car vous ne savez pas quelle forme fonctionnelle exacte vous avez besoin a priori. Mais alors que vous essayez de plus en plus de faire correspondre, vous commencez à classer les choses de manière erronée.
Notez que dans les deux cas, nous avons utilisé les mêmes formes fonctionnelles. Dans le cas d'une perte incorrecte, elle a dégénéré en une fonction échelonnée qui à son tour a fait une classification parfaite. Dans le cas approprié, il est devenu fou furieux d'essayer de satisfaire chaque région de la densité.
Fondamentalement, nous n'avons pas toujours besoin de réaliser le vrai modèle pour avoir des prévisions précises. Ou parfois, nous n'avons pas vraiment besoin de faire du bien sur tout le domaine de la densité, mais d'être très bons seulement sur certaines parties de celle-ci.
la source
La précision (c.-à-d. Le pourcentage correctement classé) est une règle de notation incorrecte, donc dans un certain sens, les gens le font tout le temps.
Plus généralement, toute règle de notation qui force les prédictions dans une catégorie prédéfinie sera incorrecte. La classification en est un cas extrême (les seules prévisions autorisées sont 0% et 100%), mais les prévisions météorologiques sont probablement aussi légèrement incorrectes - mes stations locales semblent signaler le risque de pluie à 10 ou 20% d'intervalle, bien que je Je parie que le modèle sous-jacent est beaucoup plus précis.
Des règles de notation appropriées supposent également que le prévisionniste est neutre vis-à-vis du risque. Ce n'est souvent pas le cas pour les prévisionnistes humains réels, qui sont généralement défavorables au risque, et certaines applications pourraient bénéficier d'une règle de notation qui reproduit ce biais. Par exemple, vous pourriez donner un peu de poids supplémentaire à P (pluie), car porter un parapluie sans en avoir besoin est bien mieux que d'être pris dans une averse.
la source