Un cas typique pour l'application de l'estimation de la densité est la détection de nouveauté, ou détection de valeurs aberrantes, où l'idée est que vous ne disposez (ou principalement) que de données d'un type, mais que vous êtes intéressé par des données très qualitatives très rares, qui s'écartent considérablement de ces cas courants.
La détection des fraudes, la détection des défaillances des systèmes, etc., en sont des exemples. Il s'agit de situations où il est très difficile et / ou coûteux de collecter des données du type qui vous intéresse. Ces cas rares, c'est-à-dire les cas à faible probabilité de se produire.
La plupart du temps, vous n'êtes pas intéressé par une estimation précise de la distribution exacte, mais par les probabilités relatives (quelle est la probabilité qu'un échantillon donné soit une valeur aberrante réelle ou non).
Il existe des dizaines de tutoriels et de critiques sur le sujet. Celui- ci pourrait être un bon point de départ.
EDIT: pour certaines personnes, il semble étrange d'utiliser l'estimation de la densité pour la détection des valeurs aberrantes. Convenons d'abord d'une chose: lorsque quelqu'un ajuste un modèle de mélange à ses données, il effectue en fait une estimation de la densité. Un modèle de mélange représente une distribution de probabilité.
kNN et GMM sont en fait liés: ce sont deux méthodes d'estimation d'une telle densité de probabilité. C'est l'idée sous-jacente de nombreuses approches de détection de nouveautés. Par exemple, celui-ci basé sur les kNN, cet autre basé sur les fenêtres Parzen (qui soulignent cette idée même au début de l'article), et bien d' autres .
Il me semble (mais c'est juste ma perception personnelle) que la plupart sinon tous travaillent sur cette idée. Comment pourriez-vous exprimer autrement l'idée d'un événement anormal / rare?
la source
En règle générale , KDE est présenté comme une alternative aux histogrammes. Le principal avantage de KDE par rapport aux histogrammes, dans ce contexte, est d'atténuer les effets de paramètres choisis arbitrairement sur la sortie visuelle de la procédure. En particulier (et comme illustré dans le lien ci-dessus), KDE n'a pas besoin que l'utilisateur spécifie les points de début et de fin.
la source