Estimation de la densité du noyau intégrant des incertitudes

12

Lors de la visualisation de données unidimensionnelles, il est courant d'utiliser la technique d'estimation de la densité du noyau pour tenir compte des largeurs de bac mal choisies.

Lorsque mon ensemble de données unidimensionnel présente des incertitudes de mesure, existe-t-il un moyen standard d'incorporer ces informations?

Par exemple (et pardonnez-moi si ma compréhension est naïve) KDE convolue un profil gaussien avec les fonctions delta des observations. Ce noyau gaussien est partagé entre chaque emplacement, mais le paramètre gaussien pourrait être modifié pour correspondre aux incertitudes de mesure. Existe-t-il un moyen standard d'effectuer cela? J'espère refléter des valeurs incertaines avec des noyaux larges.σ

J'ai implémenté cela simplement en Python, mais je ne connais pas de méthode ou de fonction standard pour effectuer cela. Y a-t-il des problèmes avec cette technique? Je note que cela donne des graphiques étranges! Par exemple

Comparaison de KDE

Dans ce cas, les faibles valeurs ont des incertitudes plus grandes, donc ont tendance à fournir de larges noyaux plats, tandis que le KDE surpondère les valeurs faibles (et incertaines).

Simon Walker
la source
Voulez-vous dire que les courbes rouges sont les gausses de largeur variable et la courbe verte est leur somme? (Cela ne semble pas plausible à partir de ces graphiques.)
whuber
savez-vous quelle est l'erreur de mesure pour chaque observation?
Aksakal
@whuber les courbes rouges sont les gaussiens de largeur variable et la courbe bleue est leur somme. La courbe verte est le KDE avec une largeur constante, désolé pour la confusion
Simon Walker
@Aksakal oui, chaque mesure a une incertitude différente
Simon Walker
Un problème secondaire, mais ce n'est pas une définition de l'estimation de la densité du noyau que vous utilisez des noyaux gaussiens. Vous pouvez utiliser n'importe quel noyau que vous aimez intégrer à 1, bien que certains noyaux soient plus sensés ou utiles que d'autres ....
Nick Cox

Réponses:

6

Il est logique de faire varier les largeurs, mais pas nécessairement de faire correspondre la largeur du noyau à l'incertitude.

Tenez compte de l'objectif de la bande passante lorsque vous traitez des variables aléatoires pour lesquelles les observations n'ont pratiquement aucune incertitude (c'est-à-dire où vous pouvez les observer assez près exactement) - même ainsi, le kde n'utilisera pas de bande passante nulle, car la bande passante se rapporte à la la variabilité de la distribution, plutôt que l'incertitude de l'observation (c'est-à-dire la variation «entre observations», et non l'incertitude «entre observations»).

Ce que vous avez est essentiellement une source de variation supplémentaire (par rapport au cas `` sans observation-incertitude '') qui est différente pour chaque observation.

Donc, dans un premier temps, je dirais "quelle est la plus petite bande passante que j'utiliserais si les données avaient 0 incertitude?" puis créez une nouvelle bande passante qui est la racine carrée de la somme des carrés de cette bande passante et du vous auriez utilisé pour l'incertitude d'observation.σi

Une autre façon de considérer le problème serait de traiter chaque observation comme un petit noyau (comme vous l'avez fait, qui représentera où l'observation aurait pu se trouver), mais convoluer le noyau (kde-) habituel (généralement de largeur fixe, mais ne doit pas nécessairement être) avec le noyau d’incertitude d’observation, puis faire une estimation de densité combinée. (Je crois que c'est en fait le même résultat que ce que j'ai suggéré ci-dessus.)

Glen_b -Reinstate Monica
la source
2

J'appliquerais l'estimateur de densité de noyau à largeur de bande variable, par exemple les sélecteurs de bande passante locale pour le papier d' estimation de densité de noyau de déconvolution tentent de construire la fenêtre adaptative KDE lorsque la distribution des erreurs de mesure est connue. Vous avez déclaré que vous connaissiez la variance d'erreur, cette approche devrait donc être applicable dans votre cas. Voici un autre article sur une approche similaire avec un échantillon contaminé: SÉLECTION DE LA BANDE PASSANTE DE BOOTSTRAP DANS L'ESTIMATION DE LA DENSITÉ DE NOYAU À PARTIR D'UN ÉCHANTILLON CONTAMINÉ

Aksakal
la source
Votre premier lien m'amène à ms.unimelb.edu.au , ce n'est pas le papier. Je pense que vous voulez dire link.springer.com/article/10.1007/s11222-011-9247-y
Adi Ro
Ces solutions sont superbes! connaissez-vous un code qui les implémente?
Adi Ro
@AdiRo, j'ai corrigé le lien brisé. Je n'ai pas le code
Aksakal
0

Vous pouvez consulter le chapitre 6 dans "Estimation de la densité multivariée: théorie, pratique et visualisation" par David W. Scott, 1992, Wiley.

Pour le cas univarié (pp 130-131), il dérive la règle de référence normale pour la sélection de la bande passante: où est la variance le long de votre dimension, est la quantité de données et est la bande passante (vous avez utilisé dans votre question, alors ne le confondez pas dans ma notation).σ n h σ

h=(4/3)1/5σn1/5(6.17)
σnhσ

La notation KDE générale qu'il utilise est: où est la fonction du noyau.K()

f^(x)=1nhi=1nK(xxih)
K()
user29652
la source
0

En fait, je pense que la méthode que vous avez proposée s'appelle Probability Density Plot (PDP) telle qu'elle est largement utilisée en géoscience, voir un article ici: https://www.sciencedirect.com/science/article/pii/S0009254112001878

Cependant, il y a des inconvénients comme mentionné dans le document ci-dessus. Comme si les erreurs mesurées sont petites, il y aura des pics dans le PDF que vous obtiendrez à la fin. Mais on peut aussi lisser le PDP tout comme la façon de KDE, tout comme ce que @ Glen_b ♦ a mentionné

CyTex
la source