Approches lors de l'apprentissage à partir d'énormes ensembles de données?

10

Fondamentalement, il existe deux façons courantes d'apprendre contre d'énormes ensembles de données (lorsque vous êtes confronté à des restrictions de temps / d'espace):

  1. Tricher :) - utilisez juste un sous-ensemble "gérable" pour la formation. La perte de précision peut être négligeable en raison de la loi des rendements décroissants - les performances prédictives du modèle s'aplatissent souvent bien avant que toutes les données d'entraînement ne soient incorporées.
  2. Informatique parallèle - divisez le problème en parties plus petites et résolvez chacune sur une machine / un processeur séparé. Vous avez besoin d'une version parallèle de l'algorithme, mais la bonne nouvelle est que de nombreux algorithmes courants sont naturellement parallèles: le plus proche voisin, les arbres de décision, etc.

Existe-t-il d'autres méthodes? Y a-t-il une règle d'or quand utiliser chacun? Quels sont les inconvénients de chaque approche?

andreister
la source

Réponses:

10

Stream Mining est une réponse. Il est également appelé:

  • Exploration de flux de données
  • Apprentissage en ligne
  • Apprentissage en ligne massif

    Au lieu de mettre tous les ensembles de données en mémoire et d'en tirer des leçons. Ils en mettent des morceaux en mémoire et forment des classificateurs / clusters à partir de ce flux de morceaux. Voir les liens suivants.

  • Data_stream_mining de wikipedia.

  • MOA: Analyse massive en ligne

  • Mining of Massive Datasets Book , de l'Université de Stanford. Il utilise MapReduce comme outil.

  • Vidéos sur videolectures.net. Rechercher des vidéos similaires existe sur ce site.

Atilla Ozgur
la source
convenu, la boîte à outils MOA serait un bon point de départ
tdc
7

Au lieu d'utiliser un seul sous-ensemble, vous pouvez utiliser plusieurs sous-ensembles comme dans l'apprentissage en mini-batch (par exemple, descente de gradient stochastique). De cette façon, vous utiliseriez toujours toutes vos données.

Lucas
la source
Aha c'est un bon point - j'ai clarifié la question. Je suis intéressé par un scénario lorsque vous êtes confronté à des restrictions de temps / d'espace et que vous ne pouvez pas vous permettre un apprentissage en mini-lot.
andreister
1

Ensembles comme l'ensachage ou le mélange - aucune donnée n'est gaspillée, le problème devient automagiquement trivialement parallèle et il peut y avoir des gains de précision / robustesse importants.


la source