Lors de la visualisation de données unidimensionnelles, il est courant d'utiliser la technique d'estimation de la densité du noyau pour tenir compte des largeurs de bac mal choisies.
Lorsque mon ensemble de données unidimensionnel présente des incertitudes de mesure, existe-t-il un moyen standard d'incorporer ces informations?
Par exemple (et pardonnez-moi si ma compréhension est naïve) KDE convolue un profil gaussien avec les fonctions delta des observations. Ce noyau gaussien est partagé entre chaque emplacement, mais le paramètre gaussien pourrait être modifié pour correspondre aux incertitudes de mesure. Existe-t-il un moyen standard d'effectuer cela? J'espère refléter des valeurs incertaines avec des noyaux larges.
J'ai implémenté cela simplement en Python, mais je ne connais pas de méthode ou de fonction standard pour effectuer cela. Y a-t-il des problèmes avec cette technique? Je note que cela donne des graphiques étranges! Par exemple
Dans ce cas, les faibles valeurs ont des incertitudes plus grandes, donc ont tendance à fournir de larges noyaux plats, tandis que le KDE surpondère les valeurs faibles (et incertaines).
la source
Réponses:
Il est logique de faire varier les largeurs, mais pas nécessairement de faire correspondre la largeur du noyau à l'incertitude.
Tenez compte de l'objectif de la bande passante lorsque vous traitez des variables aléatoires pour lesquelles les observations n'ont pratiquement aucune incertitude (c'est-à-dire où vous pouvez les observer assez près exactement) - même ainsi, le kde n'utilisera pas de bande passante nulle, car la bande passante se rapporte à la la variabilité de la distribution, plutôt que l'incertitude de l'observation (c'est-à-dire la variation «entre observations», et non l'incertitude «entre observations»).
Ce que vous avez est essentiellement une source de variation supplémentaire (par rapport au cas `` sans observation-incertitude '') qui est différente pour chaque observation.
Donc, dans un premier temps, je dirais "quelle est la plus petite bande passante que j'utiliserais si les données avaient 0 incertitude?" puis créez une nouvelle bande passante qui est la racine carrée de la somme des carrés de cette bande passante et du vous auriez utilisé pour l'incertitude d'observation.σje
Une autre façon de considérer le problème serait de traiter chaque observation comme un petit noyau (comme vous l'avez fait, qui représentera où l'observation aurait pu se trouver), mais convoluer le noyau (kde-) habituel (généralement de largeur fixe, mais ne doit pas nécessairement être) avec le noyau d’incertitude d’observation, puis faire une estimation de densité combinée. (Je crois que c'est en fait le même résultat que ce que j'ai suggéré ci-dessus.)
la source
J'appliquerais l'estimateur de densité de noyau à largeur de bande variable, par exemple les sélecteurs de bande passante locale pour le papier d' estimation de densité de noyau de déconvolution tentent de construire la fenêtre adaptative KDE lorsque la distribution des erreurs de mesure est connue. Vous avez déclaré que vous connaissiez la variance d'erreur, cette approche devrait donc être applicable dans votre cas. Voici un autre article sur une approche similaire avec un échantillon contaminé: SÉLECTION DE LA BANDE PASSANTE DE BOOTSTRAP DANS L'ESTIMATION DE LA DENSITÉ DE NOYAU À PARTIR D'UN ÉCHANTILLON CONTAMINÉ
la source
Vous pouvez consulter le chapitre 6 dans "Estimation de la densité multivariée: théorie, pratique et visualisation" par David W. Scott, 1992, Wiley.
Pour le cas univarié (pp 130-131), il dérive la règle de référence normale pour la sélection de la bande passante: où est la variance le long de votre dimension, est la quantité de données et est la bande passante (vous avez utilisé dans votre question, alors ne le confondez pas dans ma notation).σ n h σ
La notation KDE générale qu'il utilise est: où est la fonction du noyau.K(⋅)
la source
En fait, je pense que la méthode que vous avez proposée s'appelle Probability Density Plot (PDP) telle qu'elle est largement utilisée en géoscience, voir un article ici: https://www.sciencedirect.com/science/article/pii/S0009254112001878
Cependant, il y a des inconvénients comme mentionné dans le document ci-dessus. Comme si les erreurs mesurées sont petites, il y aura des pics dans le PDF que vous obtiendrez à la fin. Mais on peut aussi lisser le PDP tout comme la façon de KDE, tout comme ce que @ Glen_b ♦ a mentionné
la source