Apprentissage semi-supervisé, apprentissage actif et apprentissage profond pour la classification

19

Édition finale avec toutes les ressources mises à jour:

Pour un projet, j'applique des algorithmes d'apprentissage automatique pour la classification.

Défi: données étiquetées assez limitées et beaucoup plus de données non étiquetées.

Buts:

  1. Appliquer la classification semi-supervisée
  2. Appliquer un processus d'étiquetage en quelque sorte semi-supervisé (appelé apprentissage actif)

J'ai trouvé beaucoup d'informations dans des articles de recherche, comme l'application EM, Transductive SVM ou S3VM (Semi Supervised SVM), ou en quelque sorte en utilisant LDA, etc. Même il y a peu de livres sur ce sujet.

Question: Où sont les implémentations et les sources pratiques?


Mise à jour finale (basée sur les aides fournies par mpiktas, bayer et Dikran Marsupial)

Apprentissage semi-supervisé:

Apprentissage actif:

  • Dualiste : une implémentation de l'apprentissage actif avec code source sur la classification des textes
  • Cette page Web offre un merveilleux aperçu de l'apprentissage actif.
  • Un atelier de design expérimental: ici .

L'apprentissage en profondeur:

  • Vidéo d'introduction ici .
  • Site général .
  • Tutoriel d' apprentissage des fonctionnalités et d'apprentissage en profondeur non supervisé de Stanford .
Flocon
la source
Il existe un package R RTextTools . Si je ne me trompe pas, elle met en œuvre plusieurs des méthodes que vous mentionnez.
mpiktas
Salut mpiktas, merci pour votre aimable aide. C'est une boîte à outils intéressante. Cependant, il semble qu'il ne s'agisse que d'apprentissage supervisé, comme je l'ai lu "TextTools est un package d'apprentissage machine gratuit et open source pour la classification automatique des textes qui permet aux utilisateurs novices et avancés de commencer l'apprentissage supervisé. Le package comprend neuf algorithmes pour la classification d'ensemble (svm, slda, amplification, ensachage, forêts aléatoires, glmnet, arbres de décision, réseaux de neurones, entropie maximale) "
Flake
Ok, voici un autre essai: Weka . Les auteurs ont écrit un livre, et sa table des matières mentionne l'apprentissage semi-supervisé. J'espère sincèrement que le chapitre ne se termine pas par "... malheureusement aucun de ces algorithmes n'est implémenté dans Weka" :)
mpiktas
Drat, j'ai eu l'ancienne version du livre! Merci beaucoup d'avoir signalé cette source!
Flake

Réponses:

8

Il semble que l'apprentissage en profondeur puisse être très intéressant pour vous. Il s'agit d'un domaine très récent de modèles connexionnistes profonds qui sont pré-formés de manière non supervisée et affinés ensuite avec supervision. Le réglage fin nécessite beaucoup moins d'échantillons que le pré-entraînement.

Pour mouiller votre langue, je recommande [Semantig Hashing Salakhutdinov, Hinton . Jetez un œil aux codes trouvés pour des documents distincts du corpus Reuters: (non supervisé!)

entrez la description de l'image ici

Si vous avez besoin d'un code implémenté, consultez deeplearning.net . Je ne crois pas cependant qu'il existe des solutions prêtes à l'emploi.

bayerj
la source
C'est une information assez intéressante et nouvelle pour moi. Bien sûr, des implémentations prêtes à l'emploi seraient mieux, mais cela m'aide vraiment à savoir quelque chose de plus proche de ce que je veux. Merci.
Flake
5

Isabelle Guyon (et ses collègues) ont organisé un défi sur l'apprentissage actif il y a quelque temps, les actes sont publiés ici (accès libre). Cela a l'avantage d'être assez pratique et vous pouvez comparer directement les performances de différentes approches sous un protocole non biaisé (dans un sens familier) (la sélection aléatoire de motifs est étonnamment difficile à battre).

Dikran Marsupial
la source