Apprentissage en continu de pointe

25

J'ai travaillé avec de grands ensembles de données récemment et j'ai trouvé beaucoup d'articles sur les méthodes de streaming. Pour n'en nommer que quelques-uns:

Cependant, je n'ai pas pu trouver de documentation sur la façon dont ils se comparent les uns aux autres. Chaque article que j'ai lu semble mener des expériences sur différents ensembles de données.

Je connais sofia-ml, vowpal wabbit, mais ils semblent implémenter très peu de méthodes, par rapport à l'énorme quantité de méthodes existantes!

Les algorithmes les moins courants ne sont-ils pas suffisamment performants? Y a-t-il un document essayant de revoir autant de méthodes que possible?

RUser4512
la source
7
S'il n'y en a pas, vous devez l'écrire vous-même :)
Chris C
1
vous comprenez que les universitaires doivent écrire des articles / proposer de nouveaux algorithmes, et ils rechercheront les ensembles de données sur lesquels leur algorithme fonctionne le mieux. Je vous recommanderais simplement de vous assurer de comprendre le fonctionnement d'une bibliothèque telle que vowpal-wabbit (c'est-à-dire tous les paramètres, etc.).
seanv507
1
C'est en fait le contraire! J'ai compris que les gens choisissaient le meilleur ensemble de données et sont généralement relativement silencieux sur la façon dont ils ont validé les algorithmes (les leurs et les méthodes concurrentes). Je recherche plutôt une version en streaming de jmlr.org/papers/volume15/delgado14a/delgado14a.pdf
RUser4512
1
Vraiment comme le papier JMLR que vous avez lié. Je ne connais donc pas moi-même une comparaison similaire pour les algorithmes de streaming. Probablement parce que le streaming est plus niche et aussi parce qu'il est déjà difficile de comparer les classificateurs pour les jeux de données statiques, il est encore plus compliqué de faire une comparaison équitable pour le streaming de données.
stats0007
1
Bien que ceux-ci ne répondent pas spécifiquement à votre question, deux ressources connexes sont: Evaluating Algorithms that Learn from Data Streams de Gama et al., Qui traite des techniques d'évaluation, et MOA (Massive Online Analysis) , un cadre open source pour l'exploration de flux de données qui intègre la capacité d'évaluer les performances.
user77876

Réponses:

1

Pour autant que je sache, une étude rigoureuse de plusieurs algorithmes similaires au document Delgado que vous avez lié n'est pas disponible, mais des efforts ont été déployés pour recueillir des résultats pour les familles d'algorithmes.

Voici quelques sources que je trouve utiles (avertissement: je publie dans la région, il est donc probable que je suis biaisé dans ma sélection):

Quelques packages de logiciels:

Je peux ajouter plus d'informations et de sources si nécessaire. Comme d'autres l'ont dit, le domaine pourrait utiliser une enquête complète.

Bar
la source