J'ai commencé à me frayer un chemin à travers les didacticiels d'exploration de données statistiques d'Andrew Moore (fortement recommandé pour toute autre personne qui s'aventure dans ce domaine). J'ai commencé par lire ce PDF extrêmement intéressant intitulé "Présentation introductive des algorithmes de détection d'anomalies basées sur des séries chronologiques" dans lequel Moore retrace à travers de nombreuses techniques utilisées dans la création d'un algorithme pour détecter les épidémies. Au milieu des diapositives, à la page 27, il énumère un certain nombre d'autres «méthodes de pointe» utilisées pour détecter les épidémies. Le premier répertorié est les ondelettes . Wikipeida décrit une ondelette comme
une oscillation ondulatoire avec une amplitude qui commence à zéro, augmente, puis redescend à zéro. Il peut généralement être visualisé comme une "brève oscillation"
mais ne décrit pas leur application aux statistiques et mes recherches sur Google donnent des articles très académiques qui supposent une connaissance du lien entre les ondelettes et les statistiques ou des livres complets sur le sujet.
Je voudrais une compréhension de base de la façon dont les ondelettes sont appliquées à la détection d'anomalies de séries temporelles, de la manière dont Moore illustre les autres techniques dans son tutoriel. Quelqu'un peut-il expliquer le fonctionnement des méthodes de détection utilisant des ondelettes ou un lien vers un article compréhensible sur le sujet?
la source
Les fonctions de base d'ondelettes discrètes les plus couramment utilisées et implémentées (distinctes du CWT décrit dans la réponse de Robin) ont deux belles propriétés qui les rendent utiles pour la détection d'anomalies:
Cela signifie concrètement que votre décomposition en ondelettes discrètes examine les changements locaux du signal à travers une variété d'échelles et de bandes de fréquences. Si vous avez (par exemple) un bruit haute fréquence de grande amplitude superposé à une fonction qui affiche un décalage de faible amplitude sur une période plus longue, la transformée en ondelettes séparera efficacement ces deux échelles et vous permettra de voir le décalage de la ligne de base que beaucoup d'autres les techniques manqueront; un changement dans cette ligne de base peut suggérer une épidémie ou un autre changement d'intérêt. À bien des égards, vous pouvez traiter la décomposition elle-même comme plus fluide (et il y a eu pas mal de travail sur le rétrécissement efficace des coefficients d'ondelettes dans l'estimation non paramétrique, voir par exemple à peu près tout sur les ondelettes de Donoho). Contrairement aux méthodes purement basées sur la fréquence, le support compact signifie qu'ils sont capables de gérer des données non stationnaires. Contrairement aux méthodes purement temporelles, elles permettent un filtrage basé sur la fréquence.
En termes pratiques, pour détecter des anomalies ou des points de changement, vous appliqueriez une transformée en ondelettes discrète (probablement la variante connue sous le nom de "DWT de chevauchement maximal" ou de "DWT invariant par décalage", selon la personne que vous lisez) aux données, et regardez aux ensembles de coefficients de fréquence inférieure pour voir si vous avez des changements importants dans la ligne de base. Cela vous montrera quand un changement à long terme se produit sous n'importe quel bruit quotidien. Percival et Walden (voir les références ci-dessous) dérivent quelques tests de coefficients statistiquement significatifs que vous pouvez utiliser pour voir si un changement comme celui-ci est significatif ou non.
Un excellent travail de référence pour les ondelettes discrètes est Percival et Walden, "Wavelet Methods for Time Series Analysis". Un bon travail d'introduction est "Introduction aux ondelettes et aux transformées en ondelettes, une amorce" par Burrus, Gopinath et Guo. Si vous venez d'un milieu d'ingénierie, alors "Éléments d'ondelettes pour les ingénieurs et les scientifiques" est une bonne introduction du point de vue du traitement du signal.
(Modifié pour inclure les commentaires de Robin)
la source