Comme le soulignent Jimmy Lin et Chris Dyer dans le premier chapitre de leur livre sur l' exploration de texte intensive en données avec MapReduce , à de grandes échelles de données, les performances de différents algorithmes convergent de telle sorte que les différences de performances disparaissent pratiquement. Cela signifie que, étant donné un ensemble de données suffisamment grand, l'algorithme que vous souhaitez utiliser est celui qui est le moins cher en termes de calcul. Ce n'est qu'à des échelles de données plus petites que les différences de performances entre les algorithmes sont importantes.
Cela étant dit, leur livre (lié ci-dessus) et Mining of Massive Datasets par Anand Rajaraman, Jure Leskovec et Jeffrey D. Ullman sont probablement deux livres que vous voudrez également consulter, d'autant plus qu'ils sont directement concernés par MapReduce à des fins d'exploration de données.
Si vous avez accès à un cluster Hadoop, j'examinerais Spark. https://spark.apache.org/
la source
Personne n'a mentionné le document suivant - http://papers.nips.cc/paper/3150-map-reduce-for-machine-learning-on-multicore.pdf (Andrew Ng est l'un des auteurs)
Le papier lui-même est destiné aux machines multi-cœurs, mais il s'agit essentiellement de refondre les problèmes d'apprentissage automatique afin qu'ils correspondent au modèle de réduction de carte, et peut être utilisé pour un cluster d'ordinateurs. (pour voir pourquoi ce n'est pas une bonne idée en général, vous voudrez peut-être lire cet article - http://arxiv.org/pdf/1006.4990v1.pdf . Il a une bonne vue d'ensemble).
la source
Renforcer l'apprentissage automatique : approches parallèles et distribuées est un excellent livre de John Langford et. Al. qui discute des implémentations parallèles d'algorithmes supervisés et non supervisés. Il parle de MapReduce, des ensembles d'arbres de décision, des moyens K parallèles, des SVM parallèles, de la propagation des croyances et de l'AD-LDA.
https://www.amazon.com/Scaling-Machine-Learning-Distributed-Approaches/dp/0521192242
la source