J'étudie un cours d'apprentissage automatique et les diapositives de la conférence contiennent des informations que je trouve en contradiction avec le livre recommandé.
Le problème est le suivant: il existe trois classificateurs:
- classificateur A offrant de meilleures performances dans la plage inférieure des seuils,
- classificateur B offrant de meilleures performances dans la plage supérieure des seuils,
- classificateur C ce que nous obtenons en retournant une pièce de monnaie p et en sélectionnant parmi les deux classificateurs.
Quelles seront les performances du classificateur C, telles que vues sur une courbe ROC?
Les diapositives de la conférence indiquent que juste en retournant cette pièce, nous allons obtenir la coque convexe magique la courbe ROC des classificateurs A et B.
Je ne comprends pas ce point. En lançant simplement une pièce, comment pouvons-nous obtenir des informations?
La diapositive de la conférence
Ce que dit le livre
Le livre recommandé ( Data Mining ... par Ian H. Witten, Eibe Frank et Mark A. Hall ), d'autre part, déclare que:
Pour le voir, choisissez un seuil de probabilité particulier pour la méthode A qui donne des taux positifs vrais et faux de tA et fA, respectivement, et un autre seuil pour la méthode B qui donne tB et fB. Si vous utilisez ces deux schémas au hasard avec les probabilités p et q, où p + q = 1, alors vous obtiendrez des taux positifs vrais et faux de p. tA + q. TB et p. fA + q. fB. Cela représente un point situé sur la droite joignant les points (tA, fA) et (tB, fB), et en variant p et q vous pouvez tracer la ligne entière entre ces deux points.
À ma connaissance, ce que dit le livre, c'est que pour réellement obtenir des informations et atteindre la coque convexe, nous devons faire quelque chose de plus avancé que de simplement lancer une pièce de monnaie.
AFAIK, la bonne façon (comme suggéré par le livre) est la suivante:
- on devrait trouver un seuil optimal Oa pour le classifieur A
- on devrait trouver un seuil optimal Ob pour le classifieur B
définissez C comme suit:
- Si t <Oa, utilisez le classificateur A avec t
- Si t> Ob, utilisez le classificateur B avec t
- Si Oa <t <Ob, choisissez entre le classificateur A avec Oa et B avec Ob par la probabilité comme une combinaison linéaire de l'endroit où nous sommes entre Oa et Ob.
Est-ce correct? Si oui, il y a quelques différences clés par rapport à ce que suggèrent les diapositives.
- Ce n'est pas un simple retournement de pièces, mais un algorithme plus avancé qui nécessite des points et des sélections définis manuellement en fonction de la région dans laquelle nous tombons.
- Il n'utilise jamais le classificateur A et B avec des valeurs de seuil entre Oa et Ob.
Pouvez-vous m'expliquer ce problème et quelle est la bonne façon de le comprendre , si ma compréhension n'était pas correcte?
Que se passerait-il si nous jetions simplement une pièce de monnaie p comme le suggèrent les diapositives? Je pense que nous aurions une courbe ROC qui se situe entre A et B, mais jamais "meilleure" que la meilleure à un moment donné.
Pour autant que je puisse voir, je ne comprends vraiment pas comment les diapositives pourraient être correctes. Le calcul probabiliste sur le côté gauche n'a pas de sens pour moi.
Mise à jour: Trouvé l'article écrit par l'auteur original qui a inventé la méthode de coque convexe: http://www.bmva.org/bmvc/1998/pdf/p082.pdf
Réponses:
(Édité)
Les diapositives de la conférence sont exactes.
La méthode A a un «point optimal» qui donne des taux positifs vrais et faux de (TPA, FPA dans le graphique) respectivement. Ce point correspondrait à un seuil, ou plus généralement [*] à une limite de décision optimale pour A. Tout de même pour B. (Mais les seuils et les limites ne sont pas liés).
On voit que le classificateur A fonctionne bien sous la préférence "minimiser les faux positifs" (stratégie conservatrice) et le classificateur B lorsque nous voulons "maximiser les vrais positifs" (stratégie désireuse).
La réponse à votre première question est essentiellement oui, sauf que la probabilité de la pièce est (dans un certain sens) arbitraire. Le dernier clasiffier serait:(Corrigé: en fait, les conférences sont tout à fait correctes, nous pouvons simplement lancer la pièce dans tous les cas. Voir les diagrammes)
Vous pouvez utiliser n'importe quel fixep dans la plage (0,1), cela dépend si vous voulez être plus ou moins conservateur, c'est-à-dire si vous voulez être plus près d'un des points ou au milieu.
[*] Vous devriez être général ici: si vous pensez en termes de seuil scalaire unique, tout cela n'a pas de sens; une caractéristique unidimensionnelle avec un classificateur basé sur un seuil ne vous donne pas suffisamment de degrés de liberté pour avoir différents classificateurs comme A et B, qui fonctionnent le long de différentes courbes lorsque les paramètres libres (limite de décision = seuil) varient. En d'autres termes: A et B sont appelés "méthodes" ou "systèmes", pas "classificateurs"; parce que A est toute une famille de classificateurs, paramétrés par un paramètre (scalaire) qui détermine une limite de décision, pas seulement un scalaire]
J'ai ajouté quelques diagrammes pour le rendre plus clair:
Dans ce scénario, on peut donc dire que la ligne orange remplie est le "classificateur A optimal" (à l'intérieur de sa famille), et la même chose pour B. Mais on ne peut pas dire si la ligne orange est meilleure que la ligne bleue: on effectue mieux lorsque nous attribuons un coût élevé aux faux positifs, l'autre lorsque les faux négatifs sont beaucoup plus coûteux.
Maintenant, il peut arriver que ces deux classificateurs soient trop extrêmes pour nos besoins, nous aimerions que les deux types d'erreurs aient des poids similaires. Nous préférerions, au lieu d'utiliser le classificateur A (point orange) ou B (point bleu) pour atteindre une performance qui se situe entre eux. Comme le cours l'indique, on peut atteindre ce résultat en lançant simplement une pièce et en choisissant l'un des classificateurs au hasard.
Nous n'obtenons aucune information. Notre nouveau classificateur randomisé n'est pas simplement "meilleur" que A ou B, sa performance est en quelque sorte une moyenne de A et B, en ce qui concerne les coûts attribués à chaque type d'erreur. Cela peut nous être bénéfique ou non, selon nos coûts.
la source
Je suis d'accord avec votre raisonnement. Si vous utilisez le classificateur par retournement de pièces pour en choisir un lorsque vous êtes entre les points A et B, votre point sur la courbe sera toujours en dessous du meilleur classificateur et au-dessus du plus pauvre et peut-être pas au-dessus des deux! Il doit y avoir un problème avec le diagramme. Au point où les 2 courbes ROC se croisent, l'algorithme de sélection aléatoire aura les mêmes performances que les deux algorithmes. Il ne sera pas au-dessus de lui comme le montre le diagramme.
la source