J'essaie de mieux comprendre l'estimation de la densité du noyau.
En utilisant la définition de Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition
Prenons pour être une fonction rectangulaire qui donne si est compris entre et et sinon, et (taille de fenêtre) pour être 1.
Je comprends que la densité est une convolution de deux fonctions, mais je ne suis pas sûr de savoir comment définir ces deux fonctions. L'un d'eux devrait (probablement) être une fonction des données qui, pour chaque point de R, nous indique combien de points de données nous avons à cet endroit (principalement ). Et l'autre fonction devrait probablement être une modification de la fonction du noyau, combinée avec la taille de la fenêtre. Mais je ne sais pas comment le définir.
Aucune suggestion?
Ci-dessous est un exemple de code R qui (je soupçonne) reproduit les paramètres que j'ai définis ci-dessus (avec un mélange de deux Gaussiens et ), sur lequel j'espère voir une "preuve" que les fonctions à alambiquer sont comme nous le suspectons .
# example code:
set.seed(2346639)
x <- c(rnorm(50), rnorm(50,2))
plot(density(x, kernel='rectangular', width=1, n = 10**4))
rug(x)
la source
Réponses:
Correspond à tout lot de donnéesX=(x1,x2,…,xn) est sa «fonction de densité empirique»
Ici,δ est une "fonction généralisée". Malgré ce nom, ce n'est pas du tout une fonction: c'est un nouvel objet mathématique qui ne peut être utilisé que dans les intégrales. Sa propriété déterminante est que pour toute fonction g de support compact continu dans un voisinage de 0 ,
(Les noms pourδ incluent la mesure "atomique" ou "ponctuelle" et la " fonction delta de Dirac " . Dans le calcul suivant, ce concept est étendu pour inclure les fonctions g qui sont continues d'un seul côté.)
La justification de cette caractérisation defX est l'observation que
la source