J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache Mahout semble être une bonne option, et elle propose des algorithmes pour les tâches de régression et de clustering .
Ce que j'ai du mal à trouver, c'est une solution pour la détection d'anomalies ou de valeurs aberrantes.
Étant donné que Mahout propose des modèles de Markov cachés et une variété de techniques de clustering (y compris K-Means), je me demandais s'il serait possible de construire un modèle pour détecter les valeurs aberrantes dans les séries chronologiques, en utilisant tout cela. Je serais reconnaissant si quelqu'un expérimenté dans ce domaine pouvait me conseiller
- si cela est possible, et dans le cas où il est
- comment faire, plus
- une estimation de l'effort requis et
- précision / problèmes de cette approche.
la source
Réponses:
Je voudrais jeter un œil à l' algorithme t-digest . Il a été fusionné dans mahout et fait également partie de certaines autres bibliothèques pour le streaming de Big Data. Vous pouvez en savoir plus sur cet algorithme en particulier et la détection d'anomalies de Big Data en général dans les ressources suivantes:
la source
Vous pouvez vous référer à ma réponse liée à H2O R ou à la méthode de détection d'anomalie Python dans stackexchange , car elle est également évolutive.
la source