Combiner des classificateurs en lançant une pièce

J'étudie un cours d'apprentissage automatique et les diapositives de la conférence contiennent des informations que je trouve en contradiction avec le livre recommandé.

Le problème est le suivant: il existe trois classificateurs:

classificateur A offrant de meilleures performances dans la plage inférieure des seuils,
classificateur B offrant de meilleures performances dans la plage supérieure des seuils,
classificateur C ce que nous obtenons en retournant une pièce de monnaie p et en sélectionnant parmi les deux classificateurs.

Quelles seront les performances du classificateur C, telles que vues sur une courbe ROC?

Les diapositives de la conférence indiquent que juste en retournant cette pièce, nous allons obtenir la coque convexe magique la courbe ROC des classificateurs A et B.

Je ne comprends pas ce point. En lançant simplement une pièce, comment pouvons-nous obtenir des informations?

La diapositive de la conférence

diapositives de conférence

Ce que dit le livre

Le livre recommandé ( Data Mining ... par Ian H. Witten, Eibe Frank et Mark A. Hall ), d'autre part, déclare que:

Pour le voir, choisissez un seuil de probabilité particulier pour la méthode A qui donne des taux positifs vrais et faux de tA et fA, respectivement, et un autre seuil pour la méthode B qui donne tB et fB. Si vous utilisez ces deux schémas au hasard avec les probabilités p et q, où p + q = 1, alors vous obtiendrez des taux positifs vrais et faux de p. tA + q. TB et p. fA + q. fB. Cela représente un point situé sur la droite joignant les points (tA, fA) et (tB, fB), et en variant p et q vous pouvez tracer la ligne entière entre ces deux points.

À ma connaissance, ce que dit le livre, c'est que pour réellement obtenir des informations et atteindre la coque convexe, nous devons faire quelque chose de plus avancé que de simplement lancer une pièce de monnaie.

AFAIK, la bonne façon (comme suggéré par le livre) est la suivante:

on devrait trouver un seuil optimal Oa pour le classifieur A
on devrait trouver un seuil optimal Ob pour le classifieur B
définissez C comme suit:
- Si t <Oa, utilisez le classificateur A avec t
- Si t> Ob, utilisez le classificateur B avec t
- Si Oa <t <Ob, choisissez entre le classificateur A avec Oa et B avec Ob par la probabilité comme une combinaison linéaire de l'endroit où nous sommes entre Oa et Ob.

Est-ce correct? Si oui, il y a quelques différences clés par rapport à ce que suggèrent les diapositives.

Ce n'est pas un simple retournement de pièces, mais un algorithme plus avancé qui nécessite des points et des sélections définis manuellement en fonction de la région dans laquelle nous tombons.
Il n'utilise jamais le classificateur A et B avec des valeurs de seuil entre Oa et Ob.

Pouvez-vous m'expliquer ce problème et quelle est la bonne façon de le comprendre , si ma compréhension n'était pas correcte?

Que se passerait-il si nous jetions simplement une pièce de monnaie p comme le suggèrent les diapositives? Je pense que nous aurions une courbe ROC qui se situe entre A et B, mais jamais "meilleure" que la meilleure à un moment donné.

Pour autant que je puisse voir, je ne comprends vraiment pas comment les diapositives pourraient être correctes. Le calcul probabiliste sur le côté gauche n'a pas de sens pour moi.

Mise à jour: Trouvé l'article écrit par l'auteur original qui a inventé la méthode de coque convexe: http://www.bmva.org/bmvc/1998/pdf/p082.pdf

machine-learning probability data-visualization classification roc hyperknot
la source

D'après ma lecture de la diapositive que vous publiez et de l'extrait du livre, ils semblent décrire exactement la même chose, et les diapositives ne sont pas erronées.

cardinal

Notez qu'il n'est pas non plus trop difficile de construire une simulation pour vous convaincre du fait indiqué dans la diapositive. La seule difficulté que vous pourriez avoir est de construire deux courbes ROC qui ressemblent à peu près à cela, mais c'est gérable, par exemple, en utilisant un modèle de mélange gaussien pour générer les observations et certaines règles de décision sous-optimales.

cardinal

Réponses:

(Édité)

Les diapositives de la conférence sont exactes.

La méthode A a un «point optimal» qui donne des taux positifs vrais et faux de (TPA, FPA dans le graphique) respectivement. Ce point correspondrait à un seuil, ou plus généralement [*] à une limite de décision optimale pour A. Tout de même pour B. (Mais les seuils et les limites ne sont pas liés).

On voit que le classificateur A fonctionne bien sous la préférence "minimiser les faux positifs" (stratégie conservatrice) et le classificateur B lorsque nous voulons "maximiser les vrais positifs" (stratégie désireuse).

~~La réponse à votre première question est essentiellement oui, sauf que la probabilité de la pièce est (dans un certain sens) arbitraire. Le dernier clasiffier serait:~~

~~$x$ $x$ $p$~~

(Corrigé: en fait, les conférences sont tout à fait correctes, nous pouvons simplement lancer la pièce dans tous les cas. Voir les diagrammes)

Vous pouvez utiliser n'importe quel fixe $p$ dans la plage (0,1), cela dépend si vous voulez être plus ou moins conservateur, c'est-à-dire si vous voulez être plus près d'un des points ou au milieu.

[*] Vous devriez être général ici: si vous pensez en termes de seuil scalaire unique, tout cela n'a pas de sens; une caractéristique unidimensionnelle avec un classificateur basé sur un seuil ne vous donne pas suffisamment de degrés de liberté pour avoir différents classificateurs comme A et B, qui fonctionnent le long de différentes courbes lorsque les paramètres libres (limite de décision = seuil) varient. En d'autres termes: A et B sont appelés "méthodes" ou "systèmes", pas "classificateurs"; parce que A est toute une famille de classificateurs, paramétrés par un paramètre (scalaire) qui détermine une limite de décision, pas seulement un scalaire]

J'ai ajouté quelques diagrammes pour le rendre plus clair:

entrez la description de l'image ici

$t$ $t$ $t$ $t_A=2$ $t$ $t_B=4$

Dans ce scénario, on peut donc dire que la ligne orange remplie est le "classificateur A optimal" (à l'intérieur de sa famille), et la même chose pour B. Mais on ne peut pas dire si la ligne orange est meilleure que la ligne bleue: on effectue mieux lorsque nous attribuons un coût élevé aux faux positifs, l'autre lorsque les faux négatifs sont beaucoup plus coûteux.

entrez la description de l'image ici

Maintenant, il peut arriver que ces deux classificateurs soient trop extrêmes pour nos besoins, nous aimerions que les deux types d'erreurs aient des poids similaires. Nous préférerions, au lieu d'utiliser le classificateur A (point orange) ou B (point bleu) pour atteindre une performance qui se situe entre eux. Comme le cours l'indique, on peut atteindre ce résultat en lançant simplement une pièce et en choisissant l'un des classificateurs au hasard.

En lançant simplement une pièce, comment pouvons-nous obtenir des informations?

Nous n'obtenons aucune information. Notre nouveau classificateur randomisé n'est pas simplement "meilleur" que A ou B, sa performance est en quelque sorte une moyenne de A et B, en ce qui concerne les coûts attribués à chaque type d'erreur. Cela peut nous être bénéfique ou non, selon nos coûts.

AFAIK, la bonne façon (comme suggéré par le livre) est la suivante ... Est-ce correct?

$p$

leonbloy
la source

@leonboy Je crois que x est le seuil et pour les faibles valeurs du classificateur A x fonctionne mieux. Pour des valeurs élevées de x, le classificateur B fonctionne mieux. Au mieux, je veux dire que pour le taux de faux positifs donné, le taux de vrais positifs est le plus élevé. Si tout ce que nous savons, c'est que A fonctionne mieux jusqu'à un seul point où ils se croisent et B pour tous les seuils au-dessus de cela, alors tout algorithme qui donne un poids inférieur à 1 à A dans la région entre FPa et FPb où A a le TP le plus élevé ne peut pas fonctionner ainsi que A. Donc, un tel algorithme C doit tomber en dessous de A dans cette région.

Michael R. Chernick

De même dans la région entre FPa et FPb où TP est plus élevé pour B aucun algorithme avec p supérieur à 0 ne fonctionnera mieux que B. La formule pour TPc est correcte mais une moyenne pondérée fixe entre TPb et TPa ne peut pas être plus grande que la plus grande de TPa et TPb. Il doit se situer entre eux. Mais le diagramme montre toujours TPc au-dessus de TPa et TPb dans toute la région à partir de FPa et FPb. Voyez-vous ici quelque chose qui nous manque? Je ne le trouve pas dans votre réponse.

Michael R. Chernick

D'accord, l'ampoule s'est éteinte! X est un vecteur dans votre esprit plutôt qu'un seuil scalaire. Cela change-t-il vraiment quelque chose? Le FP aixs est une probabilité scalaire. Mon point de croisement est le point FP d'égalité pour A et B. Il pourrait y avoir de nombreux vecteurs X qui y mènent. Je dis juste cela à n'importe quel point le long de l'axe FP entre FPa et FPb. TPc = p TPa + (1-p) TPb. La ligne dans le tracé est dans le plan TP vs FP. Comment cette ligne pourrait-elle passer par les points au-dessus des courbes pour A et B comme l'OP l'a interrogé (je pense correctement)?

Michael R. Chernick

@ Michael: Je pense que A et B sont des méthodes distinctes qui donnent des décisions de frontière différentes. Chacun a un paramètre ajustable (ce qui dans 1D est un seuil), les paramètres sont indépendants et donnent (pour chacun) une famille de classificateurs. Je vais essayer de tracer un diagramme pour essayer de clarifier, attendez.

leonbloy

J'ai donné à leonbloy une note positive pour cette jolie description. Mais j'aime le dernier commentaire du cardinal parce que cet argument est clair pour moi et est d'accord avec ma dernière pensée. @leobloy La seule chose qui manque à votre diagramme est un tracé des points pour la règle aléatoire qui bat les deux individuels. Je suppose que vous pouvez décrire la nouvelle règle comme une règle qui pondère les deux erreurs différemment, mais ce n'est pas nécessaire et je pense que cela prête moins à confusion si vous omettez cet argument.

Michael R. Chernick

Je suis d'accord avec votre raisonnement. Si vous utilisez le classificateur par retournement de pièces pour en choisir un lorsque vous êtes entre les points A et B, votre point sur la courbe sera toujours en dessous du meilleur classificateur et au-dessus du plus pauvre et peut-être pas au-dessus des deux! Il doit y avoir un problème avec le diagramme. Au point où les 2 courbes ROC se croisent, l'algorithme de sélection aléatoire aura les mêmes performances que les deux algorithmes. Il ne sera pas au-dessus de lui comme le montre le diagramme.

Michael R. Chernick
la source

Je pense que la diapositive est correcte. Si vous utilisez deux procédures de décision différentes avec deux seuils différents, puis prenez une décision aléatoire, vous obtiendrez une combinaison convexe qui donnera un point situé entre les deux. Ce point peut être au-dessus des deux ( ! ) Des courbes avec le même taux de faux positifs. En effet, le seuil utilisé pour chaque procédure est différent à ce stade.

cardinal

Ainsi, A et B dans la combinaison convexe sont différents des A et B qui sont choisis individuellement à ce taux de faux positifs. Je pense simplement que le diagramme était déroutant car je ne voyais pas que A et B étaient sélectionnés dans une famille de classificateurs.

Michael R. Chernick

A

$A$

B

$B$

Je crois que cette réponse est la bonne, accompagnée du commentaire du cardinal! Sortir de la zone d'intersection peut arriver, mais ce n'est pas une méthode. J'ai trouvé le papier original du gars qui a inventé cette méthode, et ça l'explique très bien! bmva.org/bmvc/1998/pdf/p082.pdf

hyperknot

@zsero: Je pense que même Michael reconnaîtra que cette réponse était basée sur la compréhension du diagramme au moment où la réponse a été publiée et que son interprétation a changé depuis que les commentaires et les autres réponses sont apparus. Tout comme le montre la figure, on peut réaliser par randomisation n'importe quel point sur n'importe quelle ligne entre un point sur la première courbe et un point sur la seconde même si le taux positif réel résultant domine les deux autres courbes pour un taux faux positif donné.

cardinal