Édition finale avec toutes les ressources mises à jour:
Pour un projet, j'applique des algorithmes d'apprentissage automatique pour la classification.
Défi: données étiquetées assez limitées et beaucoup plus de données non étiquetées.
Buts:
- Appliquer la classification semi-supervisée
- Appliquer un processus d'étiquetage en quelque sorte semi-supervisé (appelé apprentissage actif)
J'ai trouvé beaucoup d'informations dans des articles de recherche, comme l'application EM, Transductive SVM ou S3VM (Semi Supervised SVM), ou en quelque sorte en utilisant LDA, etc. Même il y a peu de livres sur ce sujet.
Question: Où sont les implémentations et les sources pratiques?
Mise à jour finale (basée sur les aides fournies par mpiktas, bayer et Dikran Marsupial)
Apprentissage semi-supervisé:
- TSVM: dans SVMligth et SVMlin .
- EM Naive Bayes en Python
- Projet EM dans LinePipe
Apprentissage actif:
- Dualiste : une implémentation de l'apprentissage actif avec code source sur la classification des textes
- Cette page Web offre un merveilleux aperçu de l'apprentissage actif.
- Un atelier de design expérimental: ici .
L'apprentissage en profondeur:
- Vidéo d'introduction ici .
- Site général .
- Tutoriel d' apprentissage des fonctionnalités et d'apprentissage en profondeur non supervisé de Stanford .
Réponses:
Il semble que l'apprentissage en profondeur puisse être très intéressant pour vous. Il s'agit d'un domaine très récent de modèles connexionnistes profonds qui sont pré-formés de manière non supervisée et affinés ensuite avec supervision. Le réglage fin nécessite beaucoup moins d'échantillons que le pré-entraînement.
Pour mouiller votre langue, je recommande [Semantig Hashing Salakhutdinov, Hinton . Jetez un œil aux codes trouvés pour des documents distincts du corpus Reuters: (non supervisé!)
Si vous avez besoin d'un code implémenté, consultez deeplearning.net . Je ne crois pas cependant qu'il existe des solutions prêtes à l'emploi.
la source
Isabelle Guyon (et ses collègues) ont organisé un défi sur l'apprentissage actif il y a quelque temps, les actes sont publiés ici (accès libre). Cela a l'avantage d'être assez pratique et vous pouvez comparer directement les performances de différentes approches sous un protocole non biaisé (dans un sens familier) (la sélection aléatoire de motifs est étonnamment difficile à battre).
la source
Voici une belle liste de bibliothèques.
http://www.infoworld.com/article/2608742/predictive-analytics/5-ways-to-add-machine-learning-to-java--javascript--and-more.html
la source