J'ai effectué une validation croisée 10 fois sur différents algorithmes de classification binaire, avec le même ensemble de données, et j'ai reçu des résultats moyens à la fois micro et macro. Il convient de mentionner qu'il s'agissait d'un problème de classification multi-étiquettes.
Dans mon cas, les vrais négatifs et les vrais positifs sont pondérés également. Cela signifie que prédire correctement les vrais négatifs est tout aussi important que prédire correctement les vrais positifs.
Les mesures micro-moyennes sont inférieures à celles macro-moyennes. Voici les résultats d'un réseau neuronal et d'une machine à vecteur de support:
J'ai également effectué un test de répartition en pourcentage sur le même ensemble de données avec un autre algorithme. Les résultats ont été:
Je préférerais comparer le test de répartition en pourcentage avec les résultats à moyenne macro, mais est-ce juste? Je ne crois pas que les résultats macro-moyennes soient biaisés parce que les vrais positifs et les vrais négatifs sont pondérés également, mais là encore, je me demande si c'est la même chose que de comparer des pommes avec des oranges?
MISE À JOUR
Sur la base des commentaires, je montrerai comment les moyennes micro et macro sont calculées.
J'ai 144 étiquettes (les mêmes que les caractéristiques ou les attributs) que je veux prédire. La précision, le rappel et la mesure F sont calculés pour chaque étiquette.
---------------------------------------------------
LABEL1 | LABEL2 | LABEL3 | LABEL4 | .. | LABEL144
---------------------------------------------------
? | ? | ? | ? | .. | ?
---------------------------------------------------
En considérant une mesure d'évaluation binaire B (tp, tn, fp, fn) qui est calculée sur la base des vrais positifs (tp), des vrais négatifs (tn), des faux positifs (fp) et des faux négatifs (fn). Les macro et micro moyennes d'une mesure spécifique peuvent être calculées comme suit:
En utilisant ces formules, nous pouvons calculer les moyennes micro et macro comme suit:
Ainsi, les mesures micro-moyennes ajoutent tous les tp, fp et fn (pour chaque étiquette), après quoi une nouvelle évaluation binaire est effectuée. Les mesures macro-moyennes ajoutent toutes les mesures (précision, rappel ou mesure F) et divisent par le nombre d'étiquettes, ce qui ressemble plus à une moyenne.
Maintenant, la question est laquelle utiliser?
Réponses:
Si vous pensez que toutes les étiquettes sont de taille plus ou moins égale (ont à peu près le même nombre d'instances), utilisez any.
Si vous pensez qu'il existe des étiquettes avec plus d'instances que d'autres et si vous souhaitez biaiser votre métrique vers les plus peuplées, utilisez le micromédia .
Si vous pensez qu'il y a des étiquettes avec plus d'instances que d'autres et si vous souhaitez biaiser votre métrique vers les moins peuplées (ou du moins vous ne voulez pas biaiser vers les plus peuplées), utilisez macromedia .
Si le résultat micromédia est nettement inférieur à celui macromédia, cela signifie que vous avez une mauvaise classification grossière dans les étiquettes les plus peuplées, alors que vos petites étiquettes sont probablement correctement classées. Si le résultat macromédia est nettement inférieur à celui micromédia, cela signifie que vos petites étiquettes sont mal classées, tandis que vos plus grandes sont probablement correctement classées.
Si vous ne savez pas quoi faire, continuez avec les comparaisons à la fois sur micro et macro-moyenne :)
Ceci est un bon article sur le sujet.
la source