L'algorithme Twitter est basé sur
Rosner, B., (mai 1983), "Pourcentage de points pour une procédure généralisée d'erreurs électrostatiques", Technometrics, 25 (2), pp. 165-172
Je suis sûr qu'il y a eu de nombreuses techniques et avancées depuis 1983!. J'ai testé mes données internes et la détection d'anomalies de Twitter n'identifie pas les valeurs aberrantes évidentes. J'utiliserais également d'autres approches pour tester les valeurs aberrantes dans les séries chronologiques. Le meilleur que j'ai rencontré est la procédure de détection des valeurs aberrantes de Tsay qui est implémentée dans les logiciels SAS / SPSS / Autobox et SCA. Ce sont tous des systèmes commerciaux. Il y a aussi le
paquet tsoutliers qui est génial mais nécessite des spécifications de arima
modèle afin de fonctionner efficacement. J'ai eu des problèmes avec sa valeur auto.arima
par défaut en ce qui concerne l'optimisation et la sélection du modèle.
L'article de Tsay est un ouvrage fondateur sur la détection des valeurs aberrantes dans les séries chronologiques. Journal leader dans la recherche sur les prévisions International Journal of Forecasting mentionné que l'article de Tsay est l'un des travaux les plus cités et les plus influents dans un article lié ci-dessus (voir également ci-dessous). La diffusion de cet important travail et d'autres algorithmes de détection des valeurs aberrantes dans les logiciels de prévision (en particulier dans les logiciels open source) est une rareté.
J'ai rencontré quelques sources qui peuvent vous aider, mais elles ne seront pas aussi faciles / pratiques que d'exécuter un script R sur vos données: - Numenta a une source ouverte leur plate-forme NuPIC qui est utilisée pour de nombreuses choses, y compris la détection d'anomalies . - Le projet Atlas de Netflix lancera bientôt un outil open source de détection des anomalies / anomalies. - Prelert dispose d'un moteur de détection d'anomalies qui se présente comme une application côté serveur. Leur essai offre une utilisation limitée qui peut satisfaire vos besoins.
Alternativement, mon entreprise, Insignum , a un produit en version bêta qui ingère les données de séries chronologiques et détecte les anomalies de manière entièrement automatisée et vous recevez simplement des alertes par e-mail lorsque des anomalies sont détectées. Contactez-nous sur Twitter ou Linkedin et je serais heureux de vous en dire plus.
la source
Autobox (mon entreprise) fournit une détection des valeurs aberrantes. L'algorithme de Twitter obtient les grandes valeurs aberrantes, mais manque les plus petites par rapport à Autobox .
Cela prend beaucoup de temps, mais les résultats sont meilleurs pour trouver les valeurs aberrantes plus petites et également les changements de saisonnalité qui sont également des valeurs aberrantes. Ci-dessous, le modèle trouve 79 valeurs aberrantes en utilisant les 8 560 premières observations de 14 398 observations originales. La version standard max est à 10 000 observations, mais elle pourrait être modifiée pour plus, mais il n'y a pas vraiment de raison d'avoir autant de données quand vous voulez identifier et répondre aux valeurs aberrantes.
Nous avons été influencés par le travail effectué par Tsay sur les valeurs aberrantes, les changements de niveau et le changement de variance et le travail de Chow sur les changements de paramètres ainsi que notre propre travail sur la détection des changements de saisonnalité,
Si vous téléchargez la version d'essai de 30 jours et chargez dans les données d'exemple Twitter et spécifiez la fréquence à 60 et enregistrez 3 fichiers déclencheurs dans le dossier d'installation (noparcon.afs, novarcon.afs, notrend.afs) et créez un fichier appelé stepupde. afs avec 100.
la source