Où l'estimation de la densité est-elle utile?

Après avoir parcouru quelques mathématiques légèrement laconiques, je pense avoir une légère intuition de l'estimation de la densité du noyau. Mais je suis également conscient que l'estimation de la densité multivariée pour plus de trois variables pourrait ne pas être une bonne idée, en termes de propriétés statistiques de ses estimateurs.

Alors, dans quelles sortes de situations devrais-je vouloir estimer, disons, la densité bivariée en utilisant des méthodes non paramétriques? Cela vaut-il la peine de commencer à s'inquiéter de l'estimer pour plus de deux variables?

Si vous pouvez indiquer des liens utiles concernant l'application de l'estimation de la densité multivariée, ce serait formidable.

nonparametric pdf kernel-smoothing bivariate density-estimation lovekesh
la source

Réponses:

Un cas typique pour l'application de l'estimation de la densité est la détection de nouveauté, ou détection de valeurs aberrantes, où l'idée est que vous ne disposez (ou principalement) que de données d'un type, mais que vous êtes intéressé par des données très qualitatives très rares, qui s'écartent considérablement de ces cas courants.

La détection des fraudes, la détection des défaillances des systèmes, etc., en sont des exemples. Il s'agit de situations où il est très difficile et / ou coûteux de collecter des données du type qui vous intéresse. Ces cas rares, c'est-à-dire les cas à faible probabilité de se produire.

La plupart du temps, vous n'êtes pas intéressé par une estimation précise de la distribution exacte, mais par les probabilités relatives (quelle est la probabilité qu'un échantillon donné soit une valeur aberrante réelle ou non).

Il existe des dizaines de tutoriels et de critiques sur le sujet. Celui- ci pourrait être un bon point de départ.

EDIT: pour certaines personnes, il semble étrange d'utiliser l'estimation de la densité pour la détection des valeurs aberrantes. Convenons d'abord d'une chose: lorsque quelqu'un ajuste un modèle de mélange à ses données, il effectue en fait une estimation de la densité. Un modèle de mélange représente une distribution de probabilité.

kNN et GMM sont en fait liés: ce sont deux méthodes d'estimation d'une telle densité de probabilité. C'est l'idée sous-jacente de nombreuses approches de détection de nouveautés. Par exemple, celui-ci basé sur les kNN, cet autre basé sur les fenêtres Parzen (qui soulignent cette idée même au début de l'article), et bien d' autres .

Il me semble (mais c'est juste ma perception personnelle) que la plupart sinon tous travaillent sur cette idée. Comment pourriez-vous exprimer autrement l'idée d'un événement anormal / rare?

jpmuc
la source

L'ensemble de notes que vous avez décrit (section 6, «approche basée sur la densité») décrit certaines approches très ésotériques (loin de la littérature développée sur le sujet et à flux moyen et silencieux) pour la détection des valeurs aberrantes. Certes, des applications plus courantes doivent exister.

user603

Désolé, je ne comprends pas votre commentaire. Deux exemples très basiques seraient kNN et GMM. Ces deux méthodes fournissent des estimations de la densité de probabilité et peuvent être utilisées pour de tels cas.

jpmuc

Merci. qu'est-ce que GMM? Je ne pense pas que kNN soit une approche à flux moyen pour la détection des valeurs aberrantes. Pouvez-vous vous référer à un manuel récent sur les statistiques robustes où il est utilisé dans ce contexte? (J'ai regardé les articles de la diapositive que vous avez signalés et qui concernent la détection des valeurs aberrantes semblent être des procédures de conférence ou de vieux livres)

user603

GMM = modèle de mélange gaussien. Dans les diapositives, ils font référence à des scores basés sur des kNN. Personnellement, j'ai utilisé des SVM pour la détection novely. Je ne peux malheureusement pas vous recommander un manuel concret. Peut-être que ces notes ( stats.ox.ac.uk/pub/StatMeth/Robust.pdf ) suffisent.

jpmuc

Je suis entièrement d'accord avec @ user603. L'estimation de la densité est à première vue une façon très étrange et indirecte de chercher des valeurs aberrantes. Votre réponse serait améliorée en résumant comment cela est appliqué dans la pratique - et pourquoi vous pensez que cela fonctionne bien.

Nick Cox

$(x_i)$

F_{h} (X) \propto \sum_{X_{je}} \exp (- (X_{je} - X)^{T} Σ^{- 1} (X_{je} - X)),

$f_h(x) \propto \sum_{x_i} \exp( -(x_{i}-x)^{T}\Sigma^{-1} (x_{i}-x)),$ où

Σ^{- 1}

$\Sigma^{-1}$ est une matrice de covariance (la plupart du temps estimée). Cet algorithme est largement utilisé dans les tâches de clustering lorsque le nombre de composants est inconnu: chaque mode découvert est un centroïde de cluster et plus un échantillon est proche d'un mode, plus il appartient au cluster correspondant (tout étant correctement pondéré par la forme du densité reconstruite). Les exemples de données

x_{i}

$x_i$ sont généralement de dimension supérieure à un: par exemple, pour effectuer une segmentation d'image couleur 2D, les échantillons peuvent être 5d pour (RComponent, GComponent, BComponent, xPosition, yPosition).

peuhp
la source

En règle générale , KDE est présenté comme une alternative aux histogrammes. Le principal avantage de KDE par rapport aux histogrammes, dans ce contexte, est d'atténuer les effets de paramètres choisis arbitrairement sur la sortie visuelle de la procédure. En particulier (et comme illustré dans le lien ci-dessus), KDE n'a pas besoin que l'utilisateur spécifie les points de début et de fin.

user603
la source