Estimation de la densité avec une distribution tronquée?

8

J'ai quelques données qui sont clairement tronquées à gauche. Je souhaite l'adapter à une estimation de densité qui le manipulera d'une certaine manière au lieu d'essayer de le lisser.

Quelles méthodes connues (comme d'habitude en R) peuvent résoudre ce problème?

Exemple de code:

set.seed(1341)
x <- c(runif(30, 0, 0.01), rnorm(100,3))
hist(x, br = 10, freq = F)
lines(density(x), col = 3, lwd = 3)

entrez la description de l'image ici

Merci :)

Tal Galili
la source
6
Ceci est un bel exemple de quelque chose qui a parfois été appelé une "distribution delta lognormale" (où l'axe des x est interprété comme des logarithmes). Vous pouvez le considérer comme un mélange d'une distribution continue (qui semble presque normale - mais son identification précise dépend de vous) et d'une distribution ponctuelle prise en charge près de 0. Un modèle de mélange devrait faire du bon travail. Dans ce cas particulier, la séparation entre l'atome près de 0 et le reste des données est si bonne que vous seriez bien avisé de simplement supprimer les données à gauche (moins de 0,5) et d'estimer la densité du reste.
whuber
2
Dans certains contextes, quelque chose comme cela pourrait être appelé une distribution Tweedie , au cas où cela vous aiderait pendant que vous explorez cela.
cardinal
Cardinal - merci pour la référence! Whuber, je suis plus intéressé par la partie proche de 0, donc la réponse de Greg ci-dessous est excellente. Merci à vous deux.
Tal Galili

Réponses:

6

Le package logspline pour R a la fonction oldlogspline qui estimera les densités en utilisant un mélange de données observées et censurées.

Greg Snow
la source
5

La fonction de densité a également un fromparamètre pour indiquer le côté le plus à gauche "de la grille à laquelle la densité doit être estimée". En reprenant l'exemple ci-dessus:

lines(density(x, from = 0), col = 4, lwd = 3)

Cependant, comme vous pouvez le voir, c'est exactement la même distribution sans le fromparamètre ci-dessus. Ça commence à partir de 0, c'est tout.

Mike T
la source