Quelqu'un pourrait-il expliquer en anglais simple quelle est la différence entre les règles empiriques de Scott et Silverman pour la sélection de la bande passante? Plus précisément, quand est-ce que l'un est meilleur que l'autre? Est-ce lié à la distribution sous-jacente? Nombre d'échantillons?
PS Je fais référence au code dans SciPy .
kernel-smoothing
xrfang
la source
la source
Réponses:
Les commentaires dans le code semblent finir par définir les deux de manière essentiellement identique (à part une différence relativement faible dans la constante).
Les deux sont de la formecAn−1/5 , à la fois avec ce qui ressemble à la même A (estimation de l' échelle), et c « est très proche de 1 (proche de l'incertitude typique dans l'estimation de la bande passante optimale) .
[L'estimation de binwdith qui semble le plus souvent être associé à Scott est celui de son papier 1979 [1] (3.49sn−1/3 ) - voir par exemple Wikipedia - défiler vers le bas un peu - ou R de
nclass.scott
.]Le 1.059 dans ce que le code appelle l '"estimation Scott" est dans le livre (antérieur) de Silverman (voir p45 de la référence Silverman sur votre lien - la dérivation de Scott se trouve sur p130-131 du livre auquel ils se réfèrent). Il provient d'une estimation de théorie normale.
Pour des raisons similaires à celles que j'ai suggérées auparavant, Silverman suggère de réduire 1.059 (en fait, il utilise en fait 1.06 partout, pas 1.059 - comme Scott dans son livre). Il choisit une valeur réduite qui ne perd pas plus de 10% d'efficacité sur IMSE à la normale, d'où vient le 0,9.
Donc, ces deux largeurs de bin sont basées sur la largeur de bin optimale IMSE à la normale, une juste à l'optimum, l'autre (environ 15% plus petite, pour obtenir à moins de 90% l'efficacité de l'optimum à la normale). [Je les appellerais tous les deux des estimations "Silverman". Je ne sais pas pourquoi ils nomment le 1.059 pour Scott.]
À mon avis, les deux sont beaucoup trop grands. Je n'utilise pas d'histogrammes pour obtenir des estimations optimales IMSE de la densité. Si cela (obtenir des estimations de la densité optimales au sens IMSE) était ce que je voulais faire, je ne voudrais pas utiliser des histogrammes à cette fin.
Les histogrammes doivent être errants du côté le plus bruyant (laissez l'œil faire le lissage nécessaire). Je double presque toujours (ou plus) le nombre de bacs par défaut de ce type de règles. Je n'utiliserais donc pas 1,06 ou 0,9, j'aurais tendance à utiliser quelque chose autour de 0,5, peut-être moins pour des échantillons de très grande taille.
Il y a vraiment très peu de choix entre eux, car ils donnent tous deux trop peu de casiers pour être très utiles pour trouver ce qui se passe dans les données (sur lesquelles, au moins pour de petits échantillons, voir ici .
[1]: Scott, DW (1979), «On optimal and data-based histograms», Biometrika , 66 , 605-610.
la source