En pensant à un histogramme comme une estimation de la fonction de densité, est-il raisonnable de penser à la taille du bac comme un paramètre qui contraint la structure locale de cette fonction?
Existe-t-il également une meilleure façon d'articuler ce raisonnement?
Réponses:
Oui, c'est une façon raisonnable d'y penser (en supposant que l'histogramme est normalisé pour obtenir un pdf correct). La largeur de la corbeille limite la fluidité de l'estimation de la densité (en termes vagues, car les histogrammes sont des fonctions discontinues). Il contrôle la mesure dans laquelle une structure plus fine peut être modélisée, ainsi que la mesure dans laquelle les fluctuations aléatoires des données affectent l'estimation. Il joue un rôle similaire à la largeur du noyau dans l'estimation de la densité du noyau et aux hyperparamètres qui contrôlent la taille des feuilles dans les arbres de décision.
Pour être un peu plus précis, la largeur de la corbeille est un hyperparamètre qui contrôle le compromis de la variance du biais. La réduction de la largeur de la corbeille diminue le biais car elle permet une représentation plus fine - les histogrammes avec des corbeilles plus étroites forment une classe de fonctions plus riche qui peut mieux rapprocher la distribution vraie / sous-jacente. Mais, il augmente la variance car moins de points de données sont disponibles pour estimer la hauteur de chaque bac - les histogrammes avec des bacs plus étroits sont plus sensibles aux fluctuations aléatoires des données et varieront davantage entre les ensembles de données tirés de la même distribution sous-jacente. Une bonne largeur de bac équilibre ces effets opposés pour donner une estimation de densité qui correspond mieux à la distribution sous-jacente.
Pour plus de détails, voir:
Scott (1979) . Sur des histogrammes optimaux et basés sur des données.
Shalizi (2009) . Estimation des distributions et des densités [notes de cours]
la source
Les estimateurs de densité de noyau sont souvent rationalisés comme une version "continue" d'un histogramme. De nombreux livres sur l'estimation non paramétrique du noyau discutent également des histogrammes. Voir, par exemple, le chapitre 2 de Racine, Jeffrey S. « Econométrie non paramétrique: une amorce ». Foundations and Trends® in Econometrics 3.1 (2008): 1-88.
la source
C'est raisonnable, car ce que vous faites en mettant des échantillons dans des bacs est une approximation des données. D'après mon expérience, en fonction de votre objectif et des données disponibles, ces bacs peuvent varier considérablement et avoir un impact important sur la façon dont les données sont traitées. Dans certains cas, il se peut que vous n'ayez pas besoin de beaucoup de bacs ou que vous manquiez de données, vous pouvez donc toujours voir la courbe générale. D'un autre côté, si l'approximation est trop forte, vous pouvez manquer certains détails, comme les minutes et les maximales locales ou la structure. Par exemple, vous pouvez prendre la fonction suivante:
Et comparez l'hist pour 100 et 8 bacs
Il y a une nette différence entre la complexité de la structure. Si nous parlons de la fonction de densité, bien sûr, vous devez choisir la deuxième option pour une courbe plus lisse sans valeurs extrêmes comme sur la première image
Habituellement, je préfère utiliser la règle Freedman – Diaconis comme règle générale pour choisir la valeur par défaut nombre de bacs, puis le régler en fonction de la tâche.
la source