Différence entre l'histogramme et le pdf?

18

Si nous voulons voir visiblement la distribution d'une donnée continue, laquelle parmi l'histogramme et le pdf devrait être utilisée?

Quelles sont les différences, pas en termes de formule, entre l'histogramme et le pdf?

csgillespie
la source
Pourriez-vous préciser si cette question concerne des données (dont la distribution pourrait être représentée par un histogramme) ou des constructions théoriques (comme un pdf, qui décrit une distribution de probabilité).
whuber
4
Mais d'où vient le pdf? Par définition, un pdf décrit une distribution de probabilité théorique. Voulez-vous dire peut-être l'edf (fonction de distribution empirique)?
whuber

Réponses:

22

Pour clarifier le point Dirks:

Supposons que vos données soient un échantillon d'une distribution normale. Vous pouvez construire le tracé suivant:

texte alternatif

La ligne rouge est l'estimation empirique de la densité, la ligne bleue est le pdf théorique de la distribution normale sous-jacente. Notez que l'histogramme est exprimé ici en densités et non en fréquences. Ceci est fait à des fins de traçage, en général les fréquences sont utilisées dans les histogrammes.

Donc pour répondre à votre question: vous utilisez la distribution empirique (ie l'histogramme) si vous voulez décrire votre échantillon, et le pdf si vous voulez décrire la distribution sous-jacente hypothétique.

Le tracé est généré par le code suivant dans R:

x <- rnorm(100)
y <- seq(-4,4,length.out=200)

hist(x,freq=F,ylim=c(0,0.5))
lines(density(x),col="red",lwd=2)
lines(y,dnorm(y),col="blue",lwd=2)
Joris Meys
la source
quelle est la différence entre fréquence et densité?
Lakshay
2
La fréquence @Lakshay est comptée. Toutes les fréquences additionnées sont égales au nombre d'observations. La densité est courte pour PDF (fonction de densité de probabilité), qui est un proxy pour la probabilité d'avoir une certaine valeur. La zone sous le PDF se résume à 1.
Joris Meys
13

Un histogramme est une estimation d'âge pré-informatique d'une densité. Une estimation de la densité est une alternative.

De nos jours, nous utilisons les deux, et il existe une riche littérature sur les valeurs par défaut à utiliser.

Un pdf, d'autre part, est une expression de forme fermée pour une distribution donnée . Cela diffère de la description de votre ensemble de données avec une densité ou un histogramme estimé .

Dirk Eddelbuettel
la source
1
μσ2density
*ab***ab**$\sqrt{2}$2
6

Il n'y a pas de règle stricte ici. Si vous connaissez la densité de votre population, alors un PDF est mieux. D'un autre côté, nous traitons souvent d'échantillons et un histogramme peut transmettre des informations qu'une densité estimée recouvre. Par exemple, Andrew Gelman fait valoir ce point:

Variations sur l'histogramme

Un avantage clé d'un histogramme est qu'en tant que tracé de données brutes, il contient les germes de sa propre évaluation des erreurs. Ou, pour le dire autrement, le caractère irrégulier d'un histogramme légèrement sous-lissé fournit un service utile en indiquant visuellement la variabilité d'échantillonnage. C'est pourquoi, si vous regardez les histogrammes dans mes livres et articles publiés, j'utilise presque toujours beaucoup de bacs. Je n'aime également presque jamais ces estimations de densité de noyau que les gens utilisent parfois pour afficher des distributions unidimensionnelles. Je préfère voir l'histogramme et savoir où se trouvent les données.

ars
la source
3
Je dois admettre que je ne comprends jamais parfaitement pourquoi Gelman préconise l'utilisation d'histogramme avec une petite largeur de bac; pourquoi ne pas utiliser un diagramme à bandes ou des données brutes avec des estimations de densité de noyau superposées, qui transmettent beaucoup mieux la distribution empirique des données observées?
chl
2
@chl: Il existe bien sûr d'autres bonnes méthodes de visualisation pour avoir une idée de la variabilité d'échantillonnage. Mais sur la comparaison plus étroite de l'histogramme c. Pdf en discussion ici, je pense que son argument est bien fait.
ars
1
c'est un bon lien, tout comme les articles qui y sont discutés. Mais, cette approche vaut-elle pour les simulations, auquel cas nous essayons réellement d'estimer une densité?
David LeBauer
1

Histogramme de fréquence relative ( discret )

  • l'axe «y» est le nombre normalisé
  • L'axe «y» est une probabilité discrète pour ce bac / plage particulier
  • Les comptes normalisés totalisent 1

Histogramme de densité ( discret )

  • L'axe «y» est la valeur de densité («nombre normalisé» divisé par «largeur de bac»)
  • Les zones de barre totalisent 1

Fonction de densité de probabilité PDF ( continu )

  • Le PDF est une version continue d'un histogramme car les cases d'histogramme sont discrètes
  • la surface totale sous courbe s'intègre à 1

Ces références étaient utiles :) http://stattrek.com/statistics/dictionary.aspx?definition=Probability_density_function

Continuous_probability_distribution du site ci-dessus

http://www.geog.ucsb.edu/~joel/g210_w07/lecture_notes/lect04/oh07_04_1.html

Harsha Manjunath
la source