"La surface totale sous une fonction de densité de probabilité est 1" - par rapport à quoi?

20

Conceptuellement, je saisis la signification de l'expression "la surface totale sous un PDF est de 1". Cela devrait signifier que les chances que le résultat se situe dans l'intervalle total des possibilités sont de 100%.

Mais je ne peux pas vraiment le comprendre d'un point de vue "géométrique". Si, par exemple, dans un PDF, l'axe des x représente la longueur, l'aire totale sous la courbe ne deviendrait-elle pas plus grande si x était mesuré en mm plutôt qu'en km?

J'essaie toujours d'imaginer à quoi ressemblerait la zone sous la courbe si la fonction était aplatie en ligne droite. La hauteur (position sur l'axe des y) de cette ligne serait-elle la même pour n'importe quel PDF, ou aurait-elle une valeur dépendante de l'intervalle sur l'axe des x pour lequel la fonction est définie?

TheChymera
la source
Vous pourriez changer l'échelle de l' axe des de km en mm, mais à quoi cela reviendrait-il? Vous auriez toujours exactement la même image et six zéros supplémentaires pour les unités sur l' axe des . Vous pouvez zoomer ou dézoomer si vous le souhaitez, mais cela ne changera pas l'image. Pendant ce temps, si la courbe pdf est une ligne horizontale droite (ce qui implique une distribution uniforme), sa position sur l' axe ne dépend pas des unités de l' axe mais uniquement de la longueur de l'intervalle sur l' axe . Je ne sais pas à quel point c'est utile pour vous, mais pour moi, l'idée de faire un zoom avant et arrière facilite la compréhension. x y x xXXyXX
Richard Hardy
2
Cela semble vrai. Mais c'est une sorte d'utilisation d'une loupe (certes bizarre) qui grossit dans la direction horizontale de 1000 et en même temps rétrécit proportionnellement dans la direction verticale. Mais l'essence de l'image ne changera pas si vous changez seulement l'échelle.
Richard Hardy
2
Cette question me semble être la même que celle posée (d'une manière différente) et répondue sur stats.stackexchange.com/questions/4220/… .
whuber
1
@amoeba, Oui, alors que beaucoup peuvent se sentir obligés de voter pour la réponse plus longue en reconnaissance de l'effort qui y a été fait (ce que j'ai également fait, entre autres), Aksakal a répondu à ma question beaucoup plus clairement et succinctement. Pour être juste, je dirais que la réponse de Silverfish a également aidé et arriverait de près.
TheChymera
2
@amoeba Une réponse complètement différente aurait pu être de se concentrer sur le fait que les PDF sont des dérivés des CDF, donc la zone sous le PDF est simplement la valeur limite du CDF - qui est clairement une, quelles que soient les unités utilisées. J'ai été tenté d'inclure une courte section à ce sujet mais j'ai estimé que ma réponse était déjà suffisamment longue (et d'ailleurs, la clé du problème du PO semblait être le problème des unités, que l'approche CDF contourne plutôt).
Silverfish

Réponses:

14

La fonction de densité de probabilité est mesurée en pourcentages par unité de mesure de votre axe x. Disons qu'à un point donné votre PDF est égal à 1000. Cela signifie que la probabilité de est de où est en mètres. Si vous changez les unités en centimètres, alors la probabilité ne devrait pas changer pour le même intervalle, mais le même intervalle a 100 centimètres de plus que les mètres, donc et résolution nous obtenons . Il y a 100 fois moins d'unités de probabilité (pourcentages) par centimètre que par mètre.x0x0<x<x0+dx1000dxdX1000X=PF(X0)100XPF(X0)=PF(X0)100

Aksakal
la source
46

Cela pourrait vous aider à réaliser que l'axe vertical est mesuré comme une densité de probabilité . Donc, si l'axe horizontal est mesuré en km, alors l'axe vertical est mesuré comme une densité de probabilité "par km". Supposons que nous dessinions un élément rectangulaire sur une telle grille, qui fait 5 "km" de large et 0,1 "par km" de haut (que vous préféreriez peut-être écrire comme "km - 1 "). L'aire de ce rectangle est de 5 km x 0,1 km - 1 = 0,5. Les unités s'annulent et nous nous retrouvons avec une probabilité de moitié seulement.-1-1

Si vous avez changé les unités horizontales en "mètres", vous devrez changer les unités verticales en "par mètre". Le rectangle aurait maintenant une largeur de 5000 mètres et aurait une densité (hauteur) de 0,0001 par mètre. Il vous reste encore une probabilité de moitié. Vous pourriez être perturbé par la façon dont ces deux graphiques vont paraître bizarres sur la page l'un par rapport à l'autre (l'un ne doit-il pas être beaucoup plus large et plus court que l'autre?), Mais lorsque vous dessinez physiquement les tracés, vous pouvez utiliser n'importe quoi l'échelle que vous aimez. Regardez ci-dessous pour voir comment peu de bizarreries doivent être impliquées.

Il peut être utile de considérer les histogrammes avant de passer aux courbes de densité de probabilité. À bien des égards, ils sont analogues. L'axe vertical d'un histogramme est la densité de fréquence [par unité ]X et les zones représentent les fréquences, encore une fois parce que les unités horizontales et verticales s'annulent lors de la multiplication. La courbe PDF est une sorte de version continue d'un histogramme, avec une fréquence totale égale à un.

Une analogie encore plus étroite est un histogramme de fréquence relative - nous disons qu'un tel histogramme a été "normalisé", de sorte que les éléments de zone représentent désormais des proportions de votre ensemble de données d'origine plutôt que des fréquences brutes, et la zone totale de toutes les barres est une. Les hauteurs sont maintenant des densités de fréquence relatives [par unité ]X . Si un histogramme de fréquence relative a une barre qui s'étend le long de Xvaleurs de 20 km à 25 km (donc la largeur de la barre est de 5 km) et a une densité de fréquence relative de 0,1 par km, alors cette barre contient une proportion de 0,5 des données. Cela correspond exactement à l'idée qu'un élément choisi au hasard dans votre ensemble de données a une probabilité de 50% de se trouver dans cette barre. L'argument précédent sur l'effet des changements d'unités s'applique toujours: comparer les proportions de données situées dans la barre de 20 km à 25 km à celles de la barre de 20 000 mètres à 25 000 mètres pour ces deux parcelles. Vous pouvez également confirmer arithmétiquement que les zones de toutes les barres totalisent une dans les deux cas.

Histogrammes de fréquence relative avec différentes unités

Qu'aurais-je pu signifier en affirmant que le PDF est une "sorte de version continue d'un histogramme"? Prenons une petite bande sous une courbe de densité de probabilité, le long de valeurs dans l'intervalle [ x , x + δ x ] , de sorte que la bande est δ x large et la hauteur de la courbe est un f ( x ) approximativement constant . On peut dessiner une barre de cette hauteur, dont l'aire f ( x )X[X,X+δX]δXF(X) représente la probabilité approximative de se trouver dans cette bande.F(X)δX

Comment trouver l'aire sous la courbe entre et x = b ? On pourrait subdiviser cet intervalle en petites bandes et prendre la somme des aires des barres, f ( x )X=uneX=b , ce qui correspondrait à la probabilité approximative de mentir dans l'intervalle [ a , b ] . Nous voyons que la courbe et les barres ne s'alignent pas précisément, il y a donc une erreur dans notre approximation. En faisant δ x de plus en plus petit pour chaque barre, on remplit l'intervalle de barres plus nombreuses et plus étroites, dontf ( x )F(X)δX[une,b]δX fournit une meilleure estimation de la zone.F(X)δX

Pour calculer précisément l'aire, plutôt que de supposer que était constant sur chaque bande, nous évaluons l'intégrale b a f ( x ) d x , ce qui correspond à la vraie probabilité de se situer dans l'intervalle [ a , b ] . L'intégration sur toute la courbe donne une aire totale (c.-à-d. La probabilité totale), pour la même raison que la somme des aires de toutes les barres d'un histogramme de fréquence relative donne une aire totale (c.-à-d. La proportion totale) de un. L'intégration est en soi une sorte de version continue de la prise d'une somme.F(X)unebF(X)X[une,b]

entrez la description de l'image ici

Code R pour les parcelles

require(ggplot2)
require(scales)
require(gridExtra)
# Code for the PDF plots with bars underneath could be easily readapted

# Relative frequency histograms
x.df <- data.frame(km=c(rep(12.5, 1), rep(17.5, 2), rep(22.5, 5), rep(27.5, 2)))
x.df$metres <- x.df$km * 1000

km.plot <- ggplot(x.df, aes(x=km, y=..density..)) +
  stat_bin(origin=10, binwidth=5, fill="steelblue", colour="black") +
  xlab("Distance in km") + ylab("Relative frequency density per km") +
  scale_y_continuous(minor_breaks = seq(0, 0.1, by=0.005))

metres.plot <- ggplot(x.df, aes(x=metres, y=..density..)) +
  stat_bin(origin=10000, binwidth=5000, fill="steelblue", colour="black") +
  xlab("Distance in metres") + ylab("Relative frequency density per metre") +
  scale_x_continuous(labels = comma) +
  scale_y_continuous(minor_breaks = seq(0, 0.0001, by=0.000005), labels=comma)

grid.arrange(km.plot, metres.plot, ncol=2)
x11()

# Probability density functions
x.df <- data.frame(x=seq(0, 1, by=0.001))
cutoffs <- seq(0.2, 0.5, by=0.1) # for bars
barHeights <- c(0, dbeta(cutoffs[1:(length(cutoffs)-1)], 2, 2), 0) # uses left of bar

x.df$pdf <- dbeta(x.df$x, 2, 2)
x.df$bar <-  findInterval(x.df$x, cutoffs) + 1 # start at 1, first plotted bar is 2
x.df$barHeight <- barHeights[x.df$bar]

x.df$lastBar <- ifelse(x.df$bar == max(x.df$bar)-1, 1, 0) # last plotted bar only
x.df$lastBarHeight <- ifelse(x.df$lastBar == 1, x.df$barHeight, 0)
x.df$integral <- ifelse(x.df$bar %in% 2:(max(x.df$bar)-1), 1, 0) # all plotted bars
x.df$integralHeight <- ifelse(x.df$integral == 1, x.df$pdf, 0)

cutoffsNarrow <- seq(0.2, 0.5, by=0.025) # for the narrow bars
barHeightsNarrow <- c(0, dbeta(cutoffsNarrow[1:(length(cutoffsNarrow)-1)], 2, 2), 0) # uses left of bar
x.df$barNarrow <-  findInterval(x.df$x, cutoffsNarrow) + 1 # start at 1, first plotted bar is 2
x.df$barHeightNarrow <- barHeightsNarrow[x.df$barNarrow]

pdf.plot <- ggplot(x.df, aes(x=x, y=pdf)) +
  geom_area(fill="lightsteelblue", colour="black", size=.8) +
  ylab("probability density") +
  theme(panel.grid = element_blank(),
  axis.text.x = element_text(colour="black", size=16))

pdf.lastBar.plot <- pdf.plot +
  scale_x_continuous(breaks=tail(cutoffs, 2), labels=expression(x, x+delta*x)) +
  geom_area(aes(x=x, y=lastBarHeight, group=lastBar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(x<=X)<=x+delta*x)%~~%f(x)*delta*x"), parse=TRUE)

pdf.bars.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeight, group=bar), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.barsNarrow.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffsNarrow[c(1, length(cutoffsNarrow))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=barHeightNarrow, group=barNarrow), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)%~~%sum(f(x)*delta*x)"), parse=TRUE)

pdf.integral.plot <- pdf.plot +
  scale_x_continuous(breaks=cutoffs[c(1, length(cutoffs))], labels=c("a", "b")) +
  geom_area(aes(x=x, y=integralHeight, group=integral), fill="steelblue", colour="black", size=.8) +
  annotate("text", x=0.73, y=0.22, size=6, label=paste("P(paste(a<=X)<=b)==integral(f(x)*dx,a,b)"), parse=TRUE)

grid.arrange(pdf.lastBar.plot, pdf.bars.plot, pdf.barsNarrow.plot, pdf.integral.plot, ncol=2)
Silverfish
la source
vous l'avez cloué avec les deux premières lignes, mais le reste est tout aussi bon.
PatrickT
2
f(x)=F(x)
1
@Silverfish: C'est la première fois que je vois quelqu'un utiliser le terme "penny drops" en anglais!
Mehrdad
1
Le premier graphique ressemble à quelqu'un renversant l'oiseau :)
Aksakal
1
@Aksakal Ooof. Je ne l'ai pas remarqué. N'oubliez pas de ne pas utiliser cet exemple en classe sans quelques modifications. (Dans le même ordre d'idées, lorsque j'invente un problème à résoudre au tableau, il y a certains nombres comme 69 que j'essaie d'éviter d'apparaître. L'expérience est durement gagnée.)
Silverfish
7

Vous avez déjà obtenu deux réponses, dont une excellente par Silverfish , mais je pense qu'une illustration pourrait être utile ici puisque vous avez posé des questions sur la géométrie et «vous imaginez» ces fonctions.

Commençons par un exemple simple de distribution de Bernoulli :

f(x)={pif x=1,1pif x=0.

entrez la description de l'image ici

Comme les valeurs sont discrètes, il n'y a pas de "courbe" mais seulement deux points, mais l'idée est similaire: si vous voulez connaître la probabilité totale (zone sous la courbe), vous devez résumer les probabilités des deux résultats possibles:

p+(1p)=1

p1-p

XXF(X)X1X11#{Xje}=N#{Xje}/N=1N

entrez la description de l'image ici

XX. Donc, s'il y avait des points, vous ne pouviez pas les voir, peu importe combien vous «zoomer», car il pourrait toujours y avoir un nombre infini de points plus petits entre les points donnés. À cause de cela, nous avons en fait une courbe - vous pouvez imaginer qu'elle est constituée d'une infinité de "points". Vous pourriez vous demander: comment calculer une somme d'un nombre infini de probabilités ..? Sur le graphique ci-dessous, la courbe rouge est un PDF normal et les cases noires sont l'histogramme de certaines valeurs tirées de la distribution. L'histogramme a donc simplifié notre distribution au nombre fini de "boîtes" d'une certaine largeuret si vous additionnez les hauteurs des boîtes multipliées par leur largeur, vous vous retrouvez avec une zone sous la courbe - ou une zone de toutes les boîtes. Nous utilisons des zones plutôt des points ici car chaque boîte est un résumé d'un nombre infini de "points" qui ont été emballés dans la boîte.

entrez la description de l'image ici

F(X)-2,5--3=0,5

0.010 0.028 0.094 0.198 0.260 0.400 0.404 0.292 0.166 0.092 0.044 0.010 0.002

0,511

11F(X).

uneb-33

unebF(X)X

F(X)X

Vous avez également posé des questions sur la distribution "plate" (uniforme) :

entrez la description de l'image ici

-<une<b<1-1εpetit ... Donc c'est un cas compliqué et on pourrait l'imaginer plutôt en termes abstraits. Notez que, comme Ilmari Karonen l'a remarqué dans le commentaire, il s'agit plutôt d'une idée abstraite qui n'est pas vraiment possible dans la pratique (voir le commentaire ci-dessous). Si vous utilisez une telle distribution en tant que priorité, ce serait une priorité incorrecte .

1

Tim
la source
1
1XY(,)|X|<|Oui|
Vous avez raison, "compliqué" est trop informel. Je ferai des corrections plus tard.
Tim
0

L'idée clé suivante a été mentionnée dans un commentaire, mais pas dans une réponse existante ...

Une façon de comprendre les propriétés d'un PDF est de considérer que le PDF et le CDF sont liés par intégration (calcul) - et que le CDF a une sortie monotone représentant une valeur de probabilité comprise entre 0 et 1.

La zone totale intégrée sans unité sous la courbe PDF n'est pas affectée par les unités de l'axe X.

Pour le dire simplement ...

Area = Width x Height

Si l'axe des X devient plus grand, numériquement, en raison d'un changement d'unités, alors l'axe des Y doit devenir plus petit d'un facteur linéaire correspondant .

nobar
la source