Livre de recettes / carte de référence / aide-mémoire d'apprentissage automatique?

57

Je trouve les ressources comme le livre de recettes Probability and Statistics et la carte de référence R pour l'exploration de données extrêmement utiles. Ils servent évidemment de références, mais ils m'aident également à organiser mes réflexions sur un sujet et à comprendre le terrain.

Q: Existe-t-il des ressources similaires à ces ressources pour les méthodes d’apprentissage automatique?

J'imagine une carte de référence qui, pour chaque méthode ML, comprendrait:

  • Les propriétés générales
  • Quand la méthode fonctionne bien
  • Quand la méthode fait mal
  • A partir de ou à quelles autres méthodes la méthode généralise. At-il été en grande partie remplacé?
  • Papiers séminaux sur la méthode
  • Problèmes ouverts associés à la méthode
  • Intensité de calcul

Toutes ces choses peuvent être trouvées avec un minimum de fouilles dans les manuels scolaires, j'en suis sûr. Ce serait très pratique de les avoir sur quelques pages.

hauteur
la source
5
Un objectif intéressant, mais "fouiller un minimum dans certains manuels"? Comment pourrait-on même commencer à compresser ces 20 livres pour l'apprentissage statistique et l'exploration de données + mloss.org/software/rating ?
denis
2
(+1) pour le chuzpa, si un tel aperçu existait, je le paierais. Le problème clé est qu’à côté de certaines propriétés pouvant être dérivées de l’algorithme lui-même, la majorité de ces propriétés ou règles du pouce est acquise par expérience, c’est-à-dire par application. Je suis à peu près sûr qu'un chercheur appliqué ou un consultant / programmeur de framework ML pourrait écrire quelque chose comme ça ... mais ici et maintenant?
steffen
@ Denis: le lien "20 livres .." ne fonctionne pas, pouvez-vous vérifier cela?
lmsasu
6
Je ne suis pas un expert en apprentissage automatique, je vais donc laisser les réponses aux autres, mais je pense que The Elements of Statistical Learning est considéré comme un bon texte sur le sujet et est écrit par certains des plus grands noms du domaine. Je devrais ajouter que ce livre est écrit à un niveau élevé et ceux que j'ai entendu recommander qu'il ait un doctorat en statistiques.
Macro

Réponses:

25

Certaines des meilleures ressources librement disponibles sont:

En ce qui concerne la question de l'auteur, je n'ai pas rencontré la solution "Tout en une page"

Sergey
la source
Sergey, le livre de Barber est-il lié à Matlab?
denis
2
Oui, jetez un coup d'œil au lien du livre: la boîte de dialogue BRMLtool est fournie pour aider les lecteurs à comprendre comment les modèles mathématiques se traduisent en code MAT-LAB.
Sergey
31

Si vous voulez apprendre le Machine Learning, je vous conseille vivement de vous inscrire au cours gratuit de ML en ligne dispensé en hiver par le professeur Andrew Ng .

J’ai fait le précédent à l’automne et tout le matériel d’apprentissage est d’une qualité exceptionnelle et est conçu pour des applications pratiques.

Il est également assez facile à mettre en œuvre avec de bonnes explications intuitives et un minimum de calculs.

clyfe
la source
Je viens de terminer ce cours et c'est génial! En outre, cela m'a permis de bien comprendre les livres sur l'apprentissage automatique.
B Seven
1
Je pense que ce lien est maintenant coursera.org/course/ml
n611x007
14

Oui, vous allez bien "Pattern Recognition and Machine Learning" de Christopher Bishop est un excellent livre de référence, vous ne pouvez pas vous tromper.

Un livre assez récent, mais aussi très bien écrit et tout aussi large, est " Bayesian Reasoning and Machine Learning " de David Barber ; Je pense qu'un livre est légèrement plus approprié pour un nouveau venu sur le terrain.

J'ai utilisé "Les éléments de l'apprentissage statistique" de Hastie et al. (mentionné par Macro) et bien que ce soit un livre très solide, je ne le recommanderais pas comme première référence; cela vous servirait peut-être mieux comme deuxième référence pour des sujets plus spécialisés. À cet égard, le livre de David MacKay, Théorie de l'information, inférences et algorithmes d'apprentissage , peut également faire un travail remarquable.

usεr11852 dit Réintégrer Monic
la source
2
+1 pour Bishop. Développement clair avec un niveau de détail uniforme. Bien que toujours bon, j'ai toujours trouvé Hastie et al. un peu agité.
conjugateprior
1
+1 - Hastie, Tibshirani et Friedman sont mes préférés.
StasK
1
+1 aussi pour avoir recommandé Hastie, Tibshirani et Friedman, mes préférés personnels aussi. Et merci pour les autres recommandations; Je vais leur donner une lecture, car j’ai vraiment besoin d’un bon livre à recommander à des non-statisticiens (ou à des personnes entrant tout juste sur le terrain).
Néstor
1
+1 pour Bishop. C'est en fait une excellente source pour les statistiques classiques aussi, mais mis à jour et déguisé.
conjectures
10

Comme le consensus semble être que cette question n'est pas une duplication, j'aimerais partager mon préféré pour les débutants en apprentissage:

Je trouvais le livre le plus facile à programmer pour les débutants dans la programmation de l’Intelligence collective , puisque l’auteur Toby Segaran s’efforce de permettre au développeur de logiciel médian de se salir le plus rapidement possible avec le piratage de données.

Chapitre typique: Le problème de données est clairement décrit, suivi d’une explication sommaire du fonctionnement de l’algorithme et montre enfin comment créer des informations avec seulement quelques lignes de code.

L'utilisation de python permet de tout comprendre assez rapidement (vous n'avez pas besoin de connaître python, sérieusement, je ne le savais pas avant aussi). NE PENSEZ PAS que ce livre se concentre uniquement sur la création d'un système de recommandation. Il traite également de l'extraction de texte / filtrage du courrier indésirable / optimisation / regroupement / validation, etc.

steffen
la source
6

Witten et Frank, "Data Mining", Elsevier 2005 est un bon livre pour l’autoapprentissage, car il existe une bibliothèque de code Java (Weka) qui va avec le livre et qui est très pratique. Je soupçonne qu'il existe une édition plus récente que celle que j'ai.

Dikran Marsupial
la source
1
Oui, ce livre devait s'appeler "Machine Learning" mais le nom a été changé en "Data Mining" par les éditeurs pour suivre le battage médiatique en matière d'exploration de données à l'époque. Néanmoins, le livre parle de ML et non de DM (les deux mais sont des champs différents!).
clyfe
1
Le livre de Tom Mitchell "Machine Learning" est également très bon; le style est un peu vieux, mais le contenu est excellent.
Dikran Marsupial
Oui, le ML de Tom Mitchell est comme la bible ML, vraiment complet sur le terrain!
clyfe
5

"Elements of Statistical Learning" serait un excellent livre pour vos objectifs. La cinquième édition du livre, publiée au début de 2011, est disponible gratuitement à l' adresse http://www.stanford.edu/~hastie/local.ftp/Springer/ESLII_print5.pdf.

DanB
la source
2
c'est un livre lourd en mathématiques, donc il peut être difficile pour un auto-apprenant de suivre.
Atilla Ozgur
Savez-vous comment il est téléchargeable gratuitement sur les pages personnelles de Trevor Hastie lorsque Springer le facture à 70 $?
Alfred M.
Je ne sais pas avec certitude, mais j'imagine que Springer veut de l'argent et que les auteurs veulent surtout faire connaître leur livre à grande échelle. Cela semble très similaire à la façon dont Springer vous vendra des articles publiés, alors que de nombreuses "versions papier de travail" sont disponibles gratuitement sur le site Web de l'auteur.
DanB
Pour votre information, le téléchargement concerne la 5ème édition de la deuxième édition. J'aime la note de bas de page du graphique "En Dieu, nous avons confiance, tous les autres apportent des données" qui est attribuée à Deming. La note de bas de page souligne l'ironie voulant qu'il soit impossible de trouver des "données" confirmant ce que Deming a réellement dit.
HeatfanJohn
Vous devriez mentionner Introduction à l’apprentissage statistique avec R - c’est un peu comme l’ ESL -lite (si les calculs en anglais langue seconde sont trop complexes).
Steve S
5

entrez la description de l'image ici

Le plus difficile pour résoudre un problème d’apprentissage automatique consiste souvent à trouver le bon estimateur pour le poste. Différents estimateurs conviennent mieux à différents types de données et à différents problèmes. L'organigramme ci-dessous est conçu pour donner aux utilisateurs un guide approximatif sur la façon d'aborder les problèmes relatifs aux estimateurs à utiliser pour vos données. Cliquez sur un estimateur dans le tableau ci-dessous pour voir sa documentation.

Anton Tarasenko
la source
3

La plupart des livres mentionnés dans les autres réponses sont très bons et vous ne pouvez pas vous tromper avec l’un d’eux. De plus, je trouve la feuille de triche suivante pour Python scikit-learntrès utile.

Marc Claesen
la source
2

J'aime "classification des modèles" de Duda, Hart et Stork. Ceci est une révision récente d'un texte classique qui explique très bien tout. Pas sûr qu'il soit mis à jour pour avoir une grande couverture des réseaux de neurones et des SVM. Le livre de Hastie, Tibshirani et Friedman est à peu près le meilleur qui soit mais il est peut-être un peu plus technique que ce que vous recherchez et est détaillé plutôt qu'un aperçu du sujet.

Michael Chernick
la source
2

Microsoft Azure fournit également une aide-mémoire similaire à celle de scikit-learn publiée par Anton Tarasenko.

Algorithme d'apprentissage Microsoft Azure Machine Learning

(source: https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-cheat-sheet )

Ils l'accompagnent d'un avis:

Les suggestions proposées dans cet aide-mémoire sont des règles approximatives approximatives. Certains peuvent être courbés, et certains peuvent être violés de manière flagrante. Ceci est destiné à suggérer un point de départ. (...)

Microsoft fournit également un article d'introduction fournissant des détails supplémentaires.

Veuillez noter que ces matériaux sont axés sur les méthodes implémentées dans Microsoft Azure.

Tim
la source
1

Ne commencez pas par des éléments d'apprentissage statistique. C’est génial, mais c’est un livre de référence qui ne sonne pas exactement comme ce que vous recherchez. Je commencerais par la programmation de l'intelligence collective, car c'est une lecture facile.

Neil McGuigan
la source
Je ne suis pas sûr que je qualifierais ESL de texte de référence. Cela me semble être une vue d’ensemble, c’est-à-dire que vous n’allez pas apprendre les détails les plus importants de (pratiquement) rien. Vous verrez les techniques générales et les thèmes généraux.
cardinal
1

Pour un premier livre sur l'apprentissage automatique, qui explique très bien les principes, je recommande fortement

Rogers et Girolami, Un premier cours en apprentissage automatique (Chapman & Hall / CRC Machine Learning & Pattern Recognition), 2011.

Le livre de Chris Bishop, ou celui de David Barber, font tous les deux de bons choix pour un livre de plus grande ampleur, une fois que vous maîtrisez bien les principes.

Dikran Marsupial
la source
0

J'ai écrit un résumé de ce type, mais sur une seule tâche d'apprentissage automatique (prix Netflix), et il compte 195 pages: http://arek-paterek.com/book

Arek Paterek
la source
0

Un bon aide-mémoire est celui de Max Kuhn dans le livre Applied Predictive Modeling . Dans le livre, il y a un bon tableau de synthèse de plusieurs modèles d'apprentissage du ML. Le tableau est en annexe A page 549.

PolBM
la source