J'ai travaillé avec de grands ensembles de données récemment et j'ai trouvé beaucoup d'articles sur les méthodes de streaming. Pour n'en nommer que quelques-uns:
- Follow-the-Regularized-Leader and Mirror Descent: The Equivalence Theorems and L1 Regularization ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf )
- Apprentissage en continu: SVM en un seul passage ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf )
- Pegasos: Primal Estimated sub-GrAdient SOlver for SVM http://ttic.uchicago.edu/~nati/Publications/PegasosMPB.pdf
- ou ici: SVM peut-il diffuser l'apprentissage en continu un exemple à la fois?
- Streaming Random Forests ( http://research.cs.queensu.ca/home/cords2/ideas07.pdf )
Cependant, je n'ai pas pu trouver de documentation sur la façon dont ils se comparent les uns aux autres. Chaque article que j'ai lu semble mener des expériences sur différents ensembles de données.
Je connais sofia-ml, vowpal wabbit, mais ils semblent implémenter très peu de méthodes, par rapport à l'énorme quantité de méthodes existantes!
Les algorithmes les moins courants ne sont-ils pas suffisamment performants? Y a-t-il un document essayant de revoir autant de méthodes que possible?
machine-learning
references
large-data
online
RUser4512
la source
la source
Réponses:
Pour autant que je sache, une étude rigoureuse de plusieurs algorithmes similaires au document Delgado que vous avez lié n'est pas disponible, mais des efforts ont été déployés pour recueillir des résultats pour les familles d'algorithmes.
Voici quelques sources que je trouve utiles (avertissement: je publie dans la région, il est donc probable que je suis biaisé dans ma sélection):
Quelques packages de logiciels:
Je peux ajouter plus d'informations et de sources si nécessaire. Comme d'autres l'ont dit, le domaine pourrait utiliser une enquête complète.
la source