Comment un perceptron multiclasse peut-il fonctionner?

13

Je n'ai aucune formation en mathématiques, mais je comprends comment fonctionne le simple Perceptron et je pense que je saisis le concept d'un hyperplan (je l'imagine géométriquement comme un avion dans l'espace 3D qui sépare deux nuages ​​de points, tout comme une ligne sépare deux nuages ​​de points dans l'espace 2D).

Mais je ne comprends pas comment un avion ou une ligne pourrait séparer trois nuages ​​de points différents dans l'espace 3D ou dans l'espace 2D, respectivement - ce n'est géométriquement pas possible, n'est-ce pas?

J'ai essayé de comprendre la section correspondante de l'article Wikipedia , mais j'ai déjà misérablement échoué à la phrase «Ici, l'entrée x et la sortie y sont tirées d'ensembles arbitraires». Quelqu'un pourrait-il m'expliquer le perceptron multiclasses et comment il va avec l'idée de l'hyperplan, ou peut-être me diriger vers une explication pas si mathématique?

wnstnsmth
la source

Réponses:

8

Supposons que nous ayons des données x iR n sont des vecteurs d'entrée et y i{ rouge, bleu, vert } sont les classifications.(x1,y1),,(xk,yk)xiRnyi{red, blue, green}

Nous savons comment construire un classificateur pour les résultats binaires, nous le faisons donc trois fois: regrouper les résultats ensemble, , { bleu, rouge ou vert } et { vert, bleu ou rouge } .{red, blue or green}{blue, red or green}{green, blue or red}

Chaque modèle prend la forme d'une fonction , les appeler f R , f B , f G respectivement. Cela prend un vecteur d'entrée à la distance signée par l'hyperplan associée à chaque modèle, où la distance correspond à une prédiction positives de bleu si f B , rouge si f R et vert si f G . Fondamentalement, plus f G ( x ) est positif , plus le modèle pense que xf:RnRfR,fB,fGfBfRfGfG(x)xest vert, et vice versa. Nous n'avons pas besoin que la sortie soit une probabilité, nous devons simplement pouvoir mesurer la confiance du modèle.

Étant donné une entrée , nous la classons selon argmax c f c ( x ) , donc si f G ( x ) est le plus grand parmi { f G ( x ) , f B ( x ) , f R ( x ) } nous le ferions prédire le vert pour x .xargmaxc fc(X)fG(x){fG(x),fB(x),fR(x)}x

Cette stratégie est appelée "une contre toutes", et vous pouvez la lire ici .

Harri
la source
3

Je ne peux pas du tout donner un sens à cet article Wiki. Voici une alternative pour l'expliquer.

p1p

pi1i=(1,2)pi

mm+1

Hong Ooi
la source
Êtes-vous sûr que la sortie est une probabilité réelle? Quoi qu'il en soit, je ne sais pas comment fonctionne la régression logistique multinomiale, alors je vais devoir y réfléchir. Mais n'y a-t-il pas un moyen (algorithmique) d'expliquer comment un perceptron avec deux nœuds de sortie ou plus est construit? Sont-ils enchaînés en quelque sorte?
wnstnsmth