Quel est le meilleur classificateur 2 classes prêt à l'emploi? Oui, je suppose que c'est la question à un million de dollars, et oui, je suis conscient du théorème du déjeuner gratuit , et j'ai également lu les questions précédentes:
- Quel est le meilleur classificateur 2 classes prêt à l'emploi pour votre application?
- et pire classificateur
Pourtant, je suis intéressé à lire plus sur le sujet.
Quelle est une bonne source d'information qui inclut une comparaison générale des caractéristiques, des avantages et des caractéristiques des différents classificateurs?
Réponses:
L' ESL , comme déjà mentionné par Peter Flom, est une excellente suggestion (notez que mon lien est vers la page d'accueil de l'auteur où le livre peut être obtenu gratuitement sous forme de fichier pdf). Permettez-moi d'ajouter quelques éléments plus spécifiques à rechercher dans le livre:
Ajoutez au livre la vue des tâches d'apprentissage automatique pour R, qui donne une idée de ce que les nombreux packages d'apprentissage automatique peuvent réellement faire, bien qu'il n'y ait pas de comparaison réelle. Pour les utilisateurs de Python, j'imagine que scikit.learn est un bon endroit pour regarder. La mesure dans laquelle une méthode est «prête à l'emploi» ou «prête à l'emploi» dépend en grande partie de la façon dont la mise en œuvre gère l'adaptation automatique à la situation des données par rapport au fait de laisser le réglage détaillé à l'utilisateur. Dans mon esprit, mgcv pour R est un bon exemple qui rend l'ajustement d'un modèle additif généralisé assez bon vraiment facile et fondamentalement sans que l'utilisateur ait besoin de "régler manuellement" quoi que ce soit.
la source
Les ressources énumérées par d'autres sont certainement toutes utiles, mais je vais ajouter et ajouter ce qui suit: le "meilleur" classificateur est susceptible d'être spécifique au contexte et aux données. Lors d'une récente incursion dans l'évaluation de différents classificateurs binaires, j'ai trouvé qu'un arbre de régression boosté fonctionnait toujours mieux que les autres méthodes auxquelles j'avais accès. L'essentiel pour moi a été d'apprendre à utiliser les outils d'exploration de données d' Orange . Ils ont une excellente documentation pour commencer à explorer ces méthodes avec vos données. Par exemple, voici un court script Python que j'ai écrit pour évaluer la qualité de plusieurs classificateurs à travers plusieurs mesures de précision à l'aide de la validation croisée k-fold.
Lorsque j'exécute ce code sur mes données, j'obtiens une sortie comme
Vous pouvez faire beaucoup plus avec les objets Orange pour introspecter les performances et faire des comparaisons. J'ai trouvé que ce package était extrêmement utile pour écrire une petite quantité de code pour appliquer réellement des méthodes à mes données avec une API cohérente et une abstraction des problèmes (c'est-à-dire que je n'avais pas besoin d'utiliser six packages différents de six auteurs différents, chacun avec leur propre approche de la conception et de la documentation des API, etc.).
la source
Le livre The Elements of Statistical Learning contient beaucoup d'informations à ce sujet.
la source
Autres ressources que j'ai trouvées à ce sujet (PDF gratuit disponible):
la source
Selon cette étude récente exhaustive (évaluation de 179 classificateurs sur 121 jeux de données), les meilleurs classificateurs sont des forêts aléatoires suivies de machines à vecteurs de support.
la source