J'essaie de comprendre comment tous les composants "big data" jouent ensemble dans un cas d'utilisation réel, par exemple hadoop, monogodb / nosql, storm, kafka, ... Je sais que c'est une gamme assez large d'outils utilisés pour différents types, mais j'aimerais en savoir plus sur leur interaction dans les applications, par exemple penser à l'apprentissage automatique pour une application, une webapp, une boutique en ligne.
J'ai des vues / session, des données de transaction, etc. et je les stocke; mais si je veux faire des recommandations à la volée, je ne peux pas exécuter de carte lente / réduire les travaux pour cela sur une grande base de données de journaux que j'ai. Où puis-je en savoir plus sur les aspects d'infrastructure? Je pense que je peux utiliser la plupart des outils par eux-mêmes, mais les brancher les uns aux autres semble être un art en soi.
Existe-t-il des exemples / cas d'utilisation publics, etc. disponibles? Je comprends que les pipelines individuels dépendent fortement du cas d'utilisation et de l'utilisateur, mais des exemples me seront probablement très utiles.
Réponses:
Afin de comprendre la variété des façons dont le machine learning peut être intégré dans des applications de production, je pense qu'il est utile d'examiner les projets open source et les articles / blogs des entreprises décrivant leur infrastructure.
Le thème commun de ces systèmes est la séparation de la formation du modèle de l'application du modèle. Dans les systèmes de production, l'application du modèle doit être rapide, de l'ordre de 100s de ms, mais il y a plus de liberté dans la fréquence de mise à jour des paramètres du modèle (ou équivalent).
Les gens utilisent une large gamme de solutions pour la formation et le déploiement de modèles:
Créez un modèle, puis exportez-le et déployez-le avec PMML
Créez un modèle dans MapReduce et accédez aux valeurs dans un système personnalisé
Utilisez un système en ligne qui permet de mettre à jour en continu les paramètres du modèle.
la source
L'une des explications les plus détaillées et les plus claires de la mise en place d'un pipeline d'analyse complexe provient des gens de Twitch .
Ils donnent des motivations détaillées de chacun des choix d'architecture pour la collecte, le transport, la coordination, le traitement, le stockage et l'interrogation de leurs données.
Une lecture convaincante! Trouvez-le ici et ici .
la source
Airbnb et Etsy ont récemment publié des informations détaillées sur leurs workflows.
la source
Le chapitre 1 de Practical Data Science with R ( http://www.manning.com/zumel/ ) présente une grande ventilation du processus de science des données, y compris les rôles des équipes et leur relation avec des tâches spécifiques. Le livre suit les modèles présentés dans le chapitre en faisant référence aux étapes / personnels par lesquels telle ou telle tâche particulière serait effectuée.
la source