J'ai lu (par exemple, ici ) que le noyau Epanechnikov est optimal, au moins dans un sens théorique, lors de l'estimation de la densité du noyau. Si cela est vrai, pourquoi le gaussien apparaît-il si fréquemment comme noyau par défaut, ou dans de nombreux cas le seul noyau, dans les bibliothèques d'estimation de densité?
nonparametric
kernel-smoothing
John Rauser
la source
la source
kdensity
.Réponses:
La raison pour laquelle le noyau Epanechnikov n'est pas universellement utilisé pour son optimalité théorique peut très bien être que le noyau Epanechnikov n'est pas réellement théoriquement optimal . Tsybakov critique explicitement l'argument selon lequel le noyau Epanechnikov est "théoriquement optimal" aux pages 16-19 de l' introduction à l'estimation non paramétrique (section 1.2.4).
En essayant de résumer, sous certaines hypothèses sur le noyauK et une densité fixe p on a que l'erreur quadratique moyenne intégrée est de la forme
La principale critique de Tsybakov semble être de minimiser les noyaux non négatifs, car il est souvent possible d'obtenir des estimateurs plus performants, qui sont même non négatifs, sans se limiter aux noyaux non négatifs.
La première étape de l'argument pour le noyau Epanechnikov commence par minimiser(1) sur h et tous les noyaux non négatifs (plutôt que tous les noyaux d'une classe plus large) pour obtenir une bande passante "optimale" pour K
et le noyau "optimal" (Epanechnikov)
dont l'erreur quadratique moyenne intégrée est:
Ces choix ne sont cependant pas réalisables, car ils dépendent de la connaissance (viap′′ ) de la densité inconnue p - il s'agit donc de quantités "oracle".
Une proposition donnée par Tsybakov implique que le MISE asymptotique pour l'oracle d'Epanechnikov est:
Tsybakov dit que (2) est souvent considéré comme le meilleur MISE réalisable, mais montre ensuite que l'on peut utiliser des noyaux d'ordre 2 (pour lesquelsSK=0 ) pour construire des estimateurs de noyau, pour chaque ε>0 , de telle sorte que
Même si p n est pas nécessairement non-négatif, on a toujours le même résultat à l'estimateur de la partie positive, p + n : = max ( 0 , p n ) (qui est garanti pour être non-négative , même si K n'est pas):p^n p+n:=max(0,p^n) K
Par conséquent, pourε suffisamment petit, il existe de vrais estimateurs qui ont un MISE asymptotique plus petit que l' oracle d' Epanechnikov , même en utilisant les mêmes hypothèses sur la densité inconnue p .
En particulier, on a pour résultat que l'infimum du MISE asymptotique pour unp fixe sur tous les estimateurs du noyau (ou parties positives des estimateurs du noyau) est 0 . L'oracle d'Epanechnikov n'est donc même pas près d'être optimal, même par rapport aux vrais estimateurs.
La raison pour laquelle les gens ont avancé l'argument pour l'oracle d'Epanechnikov en premier lieu est que l'on soutient souvent que le noyau lui-même devrait être non négatif parce que la densité elle-même n'est pas négative. Mais comme le souligne Tsybakov, il n'est pas nécessaire de supposer que le noyau est non négatif pour obtenir des estimateurs de densité non négatifs, et en autorisant d'autres noyaux, on peut des estimateurs de densité non négatifs qui (1) ne sont pas des oracles et (2) exécuter arbitrairement mieux que l'oracle d'Epanechnikov pour unp fixe . Tsybakov utilise cette divergence pour affirmer qu'il n'est pas logique de plaider pour l'optimalité en termes d'un p , mais uniquement pour les propriétés d'optimalité qui sont uniformes sur une classe fixe de densités. Il souligne également que l'argument fonctionne toujours lors de l'utilisation de MSE au lieu de MISE.
EDIT: Voir également le corollaire 1.1. à la p.25, où le noyau Epanechnikov se révèle inadmissible sur la base d'un autre critère. Tsybakov ne semble vraiment pas aimer le noyau Epanechnikov.
la source
Le noyau gaussien est utilisé par exemple dans l'estimation de densité par dérivées:
C'est parce que le noyau Epanechnikov a 3 dérivés avant qu'il soit identique à zéro, contrairement au gaussien qui a une infinité de dérivés (non nuls). Voir la section 2.10 dans votre lien pour plus d'exemples.
la source