J'ai besoin de classer les URL en catégories. Disons que j'ai 15 catégories que je prévois de mettre à zéro chaque URL.
Un classificateur à 15 voies est-il meilleur? Où j'ai 15 étiquettes et génère des fonctionnalités pour chaque point de données.
Ou construire 15 classificateurs binaires, par exemple: film ou non-film, et utiliser les chiffres que j'obtiens de ces classifications pour construire un classement, pour choisir la meilleure catégorie, ça va être mieux?
Cela dépendra de la façon dont vos données sont dispersées. Il y a un bel exemple qui a été donné récemment à une question similaire où l'OP voulait savoir si une seule fonction discriminante linéaire serait un meilleur classificateur pour décider de la population A vs B ou C ou une basée sur plusieurs fonctions discriminantes linéaires qui séparent A, B et C. Quelqu'un a donné un très joli nuage de points coloré pour montrer comment utiliser deux discriminants serait mieux qu'un dans ce cas. Je vais essayer de créer un lien vers celui-ci.
la source
Certaines méthodes traitent bien les multiclasses, les forêts aléatoires, les MLP par exemple.
Si vous ne voulez pas suivre cette voie, il est possible qu'ECOC effectue bien 1-vs-All pour votre problème, seuls les tests le diront.
la source