Si le noyau Epanechnikov est théoriquement optimal lors de l'estimation de la densité du noyau, pourquoi n'est-il pas plus couramment utilisé?

J'ai lu (par exemple, ici ) que le noyau Epanechnikov est optimal, au moins dans un sens théorique, lors de l'estimation de la densité du noyau. Si cela est vrai, pourquoi le gaussien apparaît-il si fréquemment comme noyau par défaut, ou dans de nombreux cas le seul noyau, dans les bibliothèques d'estimation de densité?

nonparametric kernel-smoothing John Rauser
la source

Deux questions se confondent ici: pourquoi pas plus couramment utilisées? pourquoi le gaussien est-il souvent le noyau par défaut / uniquement? Cela peut sembler trivial, mais le nom Epanechnikov peut sembler difficile à épeler et à prononcer correctement pour les personnes qui ne parlent pas couramment cette langue. (Je ne suis même pas sûr que E. était russe; je n'ai pas trouvé de détails biographiques.) De plus, si je montre (par exemple) un bi-poids, commentez sa forme de cloche, sa largeur finie et son comportement sur les bords, qui semblent plus facile à vendre. Epanechnikov est la valeur par défaut dans Stata kdensity.

Nick Cox

J'ajouterais que cette optimalité théorique a peu d'incidence sur la pratique, le cas échéant.

Xi'an

C'est un nom familier. S'il est logique d'utiliser un noyau qui n'a pas de support fini, vous devriez le préférer. En ce qui concerne mon expérience, cela n'a pas de sens, donc le choix semble social, pas technique.

Nick Cox

@NickCox, oui, E était un mec russe, ce n'est pas une abréviation :) Il était énigmatique personne, c'est tout ce que vous pourriez jamais trouver sur lui. Je me souviens aussi d'un livre très utile que quelqu'un avec son nom a écrit sur des calculatrices programmables, oui, c'était une grosse chose à l'époque

Aksakal

@amoeba Il a travaillé chez Институт радиотехники и электроники Российской Академии Наук им. Котельникова, je parie qu'il a fait des recherches classifiées, le nom complet est Епанечников Виктор Александрович

Aksakal

Réponses:

La raison pour laquelle le noyau Epanechnikov n'est pas universellement utilisé pour son optimalité théorique peut très bien être que le noyau Epanechnikov n'est pas réellement théoriquement optimal . Tsybakov critique explicitement l'argument selon lequel le noyau Epanechnikov est "théoriquement optimal" aux pages 16-19 de l' introduction à l'estimation non paramétrique (section 1.2.4).

En essayant de résumer, sous certaines hypothèses sur le noyau $K$ et une densité fixe $p$ on a que l'erreur quadratique moyenne intégrée est de la forme

\begin{matrix} (1) & \frac{1}{n h} \int K^{2} (u) d u + \frac{h^{4}}{4} S_{K}^{2} \int (p^{″} (x))^{2} d x . \end{matrix}

$\frac{1}{nh} \int K^2 (u) du + \frac{h^4}{4}S_K^2 \int (p''(x))^2 dx \,. \tag{1}$

La principale critique de Tsybakov semble être de minimiser les noyaux non négatifs, car il est souvent possible d'obtenir des estimateurs plus performants, qui sont même non négatifs, sans se limiter aux noyaux non négatifs.

La première étape de l'argument pour le noyau Epanechnikov commence par minimiser $(1)$ sur $h$ et tous les noyaux non négatifs (plutôt que tous les noyaux d'une classe plus large) pour obtenir une bande passante "optimale" pour $K$

h^{M I S E} (K) = {(\frac{\int K^{2}}{n S_{K}^{2} \int (p^{″})^{2}})}^{1 / 5}

$h^{MISE}(K) = \left( \frac{\int K^2}{nS_K^2 \int (p'')^2} \right)^{1/5}$

et le noyau "optimal" (Epanechnikov)

K^{*} (u) = \frac{3}{4} (1 - u^{2})_{+}

$K^*(u) = \frac{3}{4}(1-u^2)_+$

dont l'erreur quadratique moyenne intégrée est:

h^{M I S E} (K^{*}) = {(\frac{15}{n \int (p^{″})^{2}})}^{1 / 5} .

$h^{MISE}(K^*) = \left( \frac{15}{n \int (p'')^2} \right)^{1/5} \,.$

Ces choix ne sont cependant pas réalisables, car ils dépendent de la connaissance (via $p''$ ) de la densité inconnue $p$ - il s'agit donc de quantités "oracle".

Une proposition donnée par Tsybakov implique que le MISE asymptotique pour l'oracle d'Epanechnikov est:

\begin{matrix} (2) & lim_{n \to \infty} n^{4 / 5} E_{p} \int (p_{n}^{E} (x) - p (x))^{2} d x = \frac{3^{4 / 5}}{5^{1 / 5} 4} {(\int (p^{″} (x))^{2} d x)}^{1 / 5} . \end{matrix}

$\lim_{n \to \infty} n^{4/5} \mathbb{E}_p \int (p_n^E (x) - p(x))^2 dx = \frac{3^{4/5}}{5^{1/5}4} \left( \int (p''(x))^2 dx \right)^{1/5} \,. \tag{2}$

Tsybakov dit que (2) est souvent considéré comme le meilleur MISE réalisable, mais montre ensuite que l'on peut utiliser des noyaux d'ordre 2 (pour lesquels $S_K =0$ ) pour construire des estimateurs de noyau, pour chaque $\varepsilon >0$ , de telle sorte que

\underset{n \to \infty}{lim sup} n^{4 / 5} E_{p} \int ({\hat{p}}_{n} (x) - p (x))^{2} d x \leq ε .

$\limsup_{n \to \infty} n^{4/5} \mathbb{E}_p \int (\hat{p}_n (x) - p(x))^2 dx \le \varepsilon \,.$

Même si est pas nécessairement non-négatif, on a toujours le même résultat à l'estimateur de la partie positive, (qui est garanti pour être non-négative , même si n'est pas): $\hat{p}_n$ $p_n^+ := \max(0, \hat{p}_n)$ $K$

\underset{n \to \infty}{lim sup} n^{4 / 5} E_{p} \int (p_{n}^{+} (x) - p (x))^{2} d x \leq ε .

$\limsup_{n \to \infty} n^{4/5} \mathbb{E}_p \int (p_n^+ (x) - p(x))^2 dx \le \varepsilon \,.$

Par conséquent, pour $\varepsilon$ suffisamment petit, il existe de vrais estimateurs qui ont un MISE asymptotique plus petit que l' oracle d' Epanechnikov , même en utilisant les mêmes hypothèses sur la densité inconnue $p$ .

En particulier, on a pour résultat que l'infimum du MISE asymptotique pour un $p$ fixe sur tous les estimateurs du noyau (ou parties positives des estimateurs du noyau) est $0$ . L'oracle d'Epanechnikov n'est donc même pas près d'être optimal, même par rapport aux vrais estimateurs.

La raison pour laquelle les gens ont avancé l'argument pour l'oracle d'Epanechnikov en premier lieu est que l'on soutient souvent que le noyau lui-même devrait être non négatif parce que la densité elle-même n'est pas négative. Mais comme le souligne Tsybakov, il n'est pas nécessaire de supposer que le noyau est non négatif pour obtenir des estimateurs de densité non négatifs, et en autorisant d'autres noyaux, on peut des estimateurs de densité non négatifs qui (1) ne sont pas des oracles et (2) exécuter arbitrairement mieux que l'oracle d'Epanechnikov pour un $p$ fixe . Tsybakov utilise cette divergence pour affirmer qu'il n'est pas logique de plaider pour l'optimalité en termes d'un $p$ , mais uniquement pour les propriétés d'optimalité qui sont uniformes sur une classe fixe de densités. Il souligne également que l'argument fonctionne toujours lors de l'utilisation de MSE au lieu de MISE.

EDIT: Voir également le corollaire 1.1. à la p.25, où le noyau Epanechnikov se révèle inadmissible sur la base d'un autre critère. Tsybakov ne semble vraiment pas aimer le noyau Epanechnikov.

Chill2Macht
la source

+1 pour une lecture intéressante, mais cela ne explique pas pourquoi le noyau gaussien est utilisé plus souvent que le noyau Epanechnikov: ils sont tous deux non négatifs.

amibe dit Réintégrer Monica

@amoeba C'est vrai. À tout le moins, cela répond à la question du titre, qui ne concerne que le noyau Epanechnikov. (C'est-à-dire qu'il aborde la prémisse de la question et montre qu'elle est fausse.)

Chill2Macht

(+1) Une chose à prendre en compte avec le schéma de Tsybakov consistant à prendre la partie positive d'une estimation du noyau éventuellement négative - qui est au moins ma mémoire de sa suggestion - est que, bien que l'estimateur de densité résultant puisse donner une meilleure convergence MSE vers la densité réelle , l'estimation de la densité ne sera généralement pas une densité valide (puisque vous coupez la masse et qu'elle ne s'intègre plus à 1). Si vous ne vous souciez que de MSE, cela n'a pas d'importance, mais parfois ce sera un problème important.

Dougal

Le noyau gaussien est utilisé par exemple dans l'estimation de densité par dérivées:

\frac{d^{i} f}{d x^{i}} (x) \approx \frac{1}{b a n d w i d t h} \sum_{j = 1}^{N} \frac{d^{i} k}{d x^{i}} (X_{j}, x)

$\frac{d^if}{dx^i}(x)\approx \frac{1}{bandwidth}\sum_{j=1}^N \frac{d^ik}{dx^i}(X_j,x)$

C'est parce que le noyau Epanechnikov a 3 dérivés avant qu'il soit identique à zéro, contrairement au gaussien qui a une infinité de dérivés (non nuls). Voir la section 2.10 dans votre lien pour plus d'exemples.

Alex R.
la source

La première dérivée du noyau Epanechnikov (notez le deuxième n , soit dit en passant) n'est pas continue là où la fonction franchit les limites du noyau; cela pourrait être plus un problème.

Glen_b -Reinstate Monica

i

$i$

@AlexR. Bien que ce que vous dites soit vrai, je ne comprends pas comment cela explique pourquoi le gaussien est si commun dans l'estimation de densité ordinaire (par opposition à l'estimation de la dérivée de la densité). Et même lors de l'estimation des dérivées, la section 2.10 suggère que le gaussien n'est jamais le noyau préféré.

John Rauser

@JohnRauser: Gardez à l'esprit que vous devez utiliser des noyaux Epanechnikov d'ordre supérieur pour une optimalité. Habituellement, les gens utilisent un gaussien, car il est tout simplement plus facile à utiliser et a de plus belles propriétés.

Alex R.

@AlexR Je chipoterais sur "[u] bien que les gens utilisent un gaussien"; avez-vous des données systématiques sur la fréquence d'utilisation ou ce n'est qu'une impression basée sur le travail que vous voyez? Je vois souvent des poids bi, mais je n'en revendiquerais pas plus.

Nick Cox