Il s'agit du score F beta:
L'article de Wikipedia indique que . "measures the effectiveness of retrieval with respect to a user who attaches β times as much importance to recall as precision"
Je n'ai pas compris l'idée. Pourquoi définir comme ça? Puis-je définir comme ceci:F β
Et comment montrer β times as much importance
?
Réponses:
Laissant être le poids dans la première définition que vous fournissez et le poids dans la seconde, les deux définitions sont équivalentes lorsque vous définissez , donc ces deux définitions ne représentent que des différences de notation dans la définition du score . Je l'ai vu défini à la fois la première façon (par exemple sur la page wikipedia ) et la seconde (par exemple ici ).β β~ β~=β2 Fβ
La mesure est obtenue en prenant la moyenne harmonique de précision et de rappel, à savoir l'inverse de la moyenne de l'inverse de précision et l'inverse de rappel:F1
Au lieu d'utiliser des poids dans le dénominateur qui sont égaux et totalisent 1 ( pour rappel et pour précision), nous pourrions plutôt attribuer des poids qui totalisent toujours 1 mais pour dont le poids au rappel est fois plus grand que le poids à la précision ( pour le rappel et pour la précision). Cela donne votre deuxième définition du score :12 12 β ββ+1 1β+1 Fβ
Encore une fois, si nous avions utilisé au lieu de ici, nous serions arrivés à votre première définition, de sorte que les différences entre les deux définitions sont simplement notables.β2 β
la source
La raison de définir le score F-beta avec est exactement la citation que vous fournissez (c'est-à-dire vouloir attacher autant d'importance à rappeler que de précision) étant donné une définition particulière de ce que signifie attacher fois plus d’importance à rappeler que de précision.β2 β β
La manière particulière de définir l'importance relative des deux métriques qui conduit à la formulation peut être trouvée dans Information Retrieval (Van Rijsbergen, 1979):β2
La motivation pour cela est:
Pour voir que cela conduit à la formulation nous pouvons commencer par la formule générale pour la moyenne harmonique pondérée des et et calculer leurs dérivées partielles par rapport à et . La source citée utilisations (pour « mesure de l' efficacité »), qui est juste et l'explication est équivalente que l' on considère ou .β2 P R P R E 1−F E F
Maintenant, si les dérivées sont égales, la restriction entre la relation et le rapport limitée . Étant donné que nous souhaitons attacher fois autant d'importance à rappeler que de précision, nous considérerons le rapport 1 :α P/R β R/P
Définir comme ce ratio et réorganiser pour donne les pondérations en termes de :β α β2
On obtient:
Qui peut être réorganisé pour donner le formulaire dans votre question.
Ainsi, étant donné la définition citée, si vous souhaitez attacher fois autant d'importance à rappeler que précision, alors la formulation devrait être utilisée. Cette interprétation ne tient pas si l'on utilise . L'interprétation équivalente, moins intuitive, dans le cas où nous utilisons simplement serait que nous voulons attacher autant d'importance à rappeler que de précision.β β2 β β β−−√
Vous pouvez définir un score comme vous le suggérez, mais vous devez savoir que dans ce cas, soit l'interprétation discutée ne tient plus, soit vous impliquez une autre définition pour quantifier le compromis entre précision et rappel.
Notes de bas de page:
Références:
la source
Pour signaler quelque chose rapidement.
En fait, je pense que c'est le contraire - étant donné que plus il vaut mieux dans la notation F-β, vous voulez que le dénominateur soit petit. Par conséquent, si vous diminuez β, le modèle est moins puni pour avoir un bon score de précision. Si vous augmentez β, alors le score F-β est plus puni lorsque la précision est élevée.
Si vous voulez pondérer le score F-β afin qu'il évalue la précision, β doit être 0 <β <1, où β-> 0 ne vaut que la précision (le numérateur devient très petit et la seule chose dans le dénominateur est le rappel, donc le score F-β diminue à mesure que le rappel augmente).
http://scikit-learn.org/stable/modules/generated/sklearn.metrics.fbeta_score.html
la source
La raison pour laquelle β ^ 2 est multiplié avec précision est simplement la façon dont les scores F sont définis. Cela signifie que lorsque la valeur bêta augmente, vous appréciez davantage la précision. Si vous vouliez le multiplier par un rappel qui fonctionnerait également, cela signifierait simplement que lorsque la valeur bêta augmente, vous valorisez davantage le rappel.
la source
La valeur bêta supérieure à 1 signifie que nous voulons que notre modèle accorde plus d'attention au rappel de modèle par rapport à Precision. De l'autre, une valeur inférieure à 1 met davantage l'accent sur la précision.
la source