Détection évolutive des valeurs aberrantes / des anomalies

10

J'essaie de configurer une infrastructure de Big Data en utilisant Hadoop, Hive, Elastic Search (entre autres), et je voudrais exécuter des algorithmes sur certains ensembles de données. Je voudrais que les algorithmes eux-mêmes soient évolutifs, ce qui exclut l'utilisation d'outils tels que Weka, R ou même RHadoop. La bibliothèque Apache Mahout semble être une bonne option, et elle propose des algorithmes pour les tâches de régression et de clustering .

Ce que j'ai du mal à trouver, c'est une solution pour la détection d'anomalies ou de valeurs aberrantes.

Étant donné que Mahout propose des modèles de Markov cachés et une variété de techniques de clustering (y compris K-Means), je me demandais s'il serait possible de construire un modèle pour détecter les valeurs aberrantes dans les séries chronologiques, en utilisant tout cela. Je serais reconnaissant si quelqu'un expérimenté dans ce domaine pouvait me conseiller

  1. si cela est possible, et dans le cas où il est
  2. comment faire, plus
  3. une estimation de l'effort requis et
  4. précision / problèmes de cette approche.
double octet
la source
1
C'est trop vague pour qu'on y réponde. Les séries temporelles sont trop différentes pour simplement leur lancer des k-means et en retirer quelque chose d'utile. Cela dépend fortement de vos données.
A QUIT - Anony-Mousse
1
Pour la détection des valeurs aberrantes, jetez un œil aux algorithmes d'ELKI. Cela semble être la collection la plus complète de détection des valeurs aberrantes.
A QUIT - Anony-Mousse
Les nouvelles versions d'Elasticsearch intègrent une détection d'anomalies de séries chronologiques (je pense que vous devez acheter le X-Pack). Je ne sais pas quels algorithmes ils utilisent, mais cela pourrait valoir la peine d'étudier une solution standard.
Tom

Réponses:

7

Je voudrais jeter un œil à l' algorithme t-digest . Il a été fusionné dans mahout et fait également partie de certaines autres bibliothèques pour le streaming de Big Data. Vous pouvez en savoir plus sur cet algorithme en particulier et la détection d'anomalies de Big Data en général dans les ressources suivantes:

  1. Livre pratique de détection d'anomalies d'apprentissage automatique.
  2. Webinaire: Détection d'anomalies lorsque vous ne savez pas ce que vous devez trouver
  3. Détection d'anomalies dans Elasticsearch .
  4. Combattre la fraude d'un milliard de dollars grâce à la détection des anomalies: une approche de traitement du signal utilisant les données Argyle sur la plate-forme de données Hortonworks avec Accumulo
prudenko
la source
Comment t-digest se compare-t-il à l'algorithme p-carré?
David Marx
Merci pour la réponse: il s'agit d'un modèle simple pour calculer des quantiles extrêmes, et je pense qu'il répondra à mes besoins. Cependant, pour les séries chronologiques plus complexes qui n'ont pas de distribution presque stationnaire, cette approche peut échouer, et c'est à ce moment-là que je pense que nous aurions besoin de quelque chose d'adaptation, comme une chaîne de Markov.
double octet
0

Vous pouvez vous référer à ma réponse liée à H2O R ou à la méthode de détection d'anomalie Python dans stackexchange , car elle est également évolutive.

0xF
la source